about NetApp

Posts tagged ‘failures’

О вероятностях сбоев в серверной DRAM

8 Октябрь 2009, 8:00

Не совсем по тематике блога о системах хранения, но тем не менее весьма любопытный документ был недавно опубликован.
Те же авторы, Eduardo Pinheiro и Wolf-Dietrich Weber, их работу Failure trends in large disk drive population мы разбирали недавно, плюс Bianca Schroeder из Carnegie Mellon University, ныне University of Toronto, за ее отчет я также возьмусь в скором времени, опубликовали анализ сбоев в DRAM серверов Google, наблюдаемых в течении 2,5 лет: “DRAM Errors in the Wild: A Large-Scale Field Study”.

Результаты довольно пугающи. В среднем на каждый модуль DRAM приходилось по 3751 ошибке в год. Хороший аргумент за однозначный выбор ECC DRAM в серверах.
??з неожиданных результатов, как и в случае жестких дисков, выяснилось, что высокая температура также слабо коррелирует с вероятностью появления ошибок в DRAM.
Подробный 12-страничный документ можно взять по ссылке: http://www.cs.toronto.edu/~bianca/papers/sigmetrics09.pdf

Метки: documents, failures, review
Раздел: новости | Комментарий

Приводит ли повышенная температура среды к частому выходу дисков из строя?

24 Сентябрь 2009, 8:00

Продолжим внимательное чтение отчета специалистов Google - Failure Trends in a Large Disk Drive Population (pdf 242 KB) опубликованный на конференции FAST07, и содержащий статистический анализ отказов "популяции" 100000 дисков consumer-серий примерно за пять лет срока их службы.

Это четвертая, заключительная статья, предыдущие:
Насколько можно доверять величине MTBF?
Приводит ли большая нагрузка к повышению вероятности отказа?
Насколько полезен и стоит доверия SMART?

Мы обнаружили, что основной параметр отказоустойчивости, приводимый производителями, MTBF - Mean Time Before Failure, бесполезен, и не коррелирует вообще с реальными показателями отказов. Мы узнали, что SMART бесполезен едва ли не более, чем полезен, и что значительная часть отказов происходит без корреляции с показаниями SMART. Наконец, мы с неожиданностью поняли, что общепринятая "аксиома" о том, что высокая нагрузка повышает вероятность выхода из строя дисков - как правило, неверна.

Но главный сюрприз у нас еще впереди.

??нженеры Google на протяжении 9 месяцев каждые несколько минут считывали показания встроенных в SMART датчиков температуры жестких дисков, чтобы понять корреляцию между температурой и вероятностью отказов.

На приведенном графике в виде столбиков приведено количество дисков, имеющих соответствующую температуру (с шагом в 1 градус, можно рассматривать как "температуру перед сбоем", так как полученная корреляция просматривается в различных вариантах измерений). Кривая с точками и T-образными символами показывает полученный уровень AFR с зарегистрированным разбросом показателей.

Как мы видим, повышение рабочей температуры до 40 градусов включительно приводит к снижению уровня отказов, но даже дальнейшее повышение ее до 50 и более поднимает его незначительно (отказы при температуре 50 градусов примерно соответствуют уровню отказов при температуре 30 градусов). Напротив, дальнейшее понижение температуры до 20 и менее, ведет к почти десятикратному росту отказов, относительно оптимальной температуры в 35-40 градусов!
(Большой статистический разброс результатов, показанный T-образными отметками, вызван снижением общего количества “испытуемых” дисков в предельных температурных областях)

Следующий график показывает величины отказов в зависимости от температур для разных "возрастных групп" (речь, конечно не идет о "трех годах работы" при определенной заданной температуре, так как наблюдение проводилось, как уже было сказано, в течение 9 месяцев) Результаты также подтверждают вышеприведенное наблюдение, расширяя его по "координате возраста".

"Переохлаждение" для дисков, то есть работа при температурах ниже 30 градусов (имеется ввиду, конечно же, температура самого диска как устройства, как ее определяет встроенный температурный датчик SMART), для устройств сроком до двух лет эксплуатации включительно, в два-три раза повышает величину отказов, даже по сравнению с ранее считавшимися "перегревом" температурами выше 45! Только для дисков старше 3 лет перегрев становится причиной повышенного выхода из строя. Снова видно, что для дисков, переживших 3 года, вероятность отказа сильно падает. Видимо где-то в районе трех лет проходит какая-то довольно заметная граница работоспособности.

Выводы приходится делать довольно неожиданные. Возможно установка кондиционирования и поддержание предельно низкой температуры в датацентре, по крайней мере для дисковых систем, не есть такое уж непререкаемое благо? Возможно оно положительно сказывается на работе, например, процессоров и оперативной памяти серверов, так как хорошо известен эффект деградации свойств полупроводников при повышенной температуре, но для жестких дисков, как показывают нам результаты исследования Google, это явно не так.

Результат, по-видимому, еще стоит осмысления и оценки.

Метки: failures, google, hdd, temperature
Раздел: review, techtalk, цитаты | Комментарий

S.M.A.R.T – Self-Monitoring, Analysis and Reporting Tool. Насколько он полезен?

21 Сентябрь 2009, 8:00

Являющиеся частью стандарта ATA, средства мониторинга и предсказания ошибок, носящие название S.M.A.R.T - Self-Monitoring, Analysis and Reporting Tool присутствуют в контроллерах всех дисков ATA (как PATA, так и SATA) с 90-х годов. По мысли разработчиков этих средств, они должны предотвратить неожиданные выходы из строя, так как SMART оценивает ряд критичных параметров диска, и пытается предсказать вероятность таких сбоев, а также ожидаемое время до сбоя.

Группа исследователей Google на протяжении 9 месяцев анализировала данные S.M.A.R.T. в 100 тысячах дисков, расположенных в его датацентрах, выявляя взаимосвязи между отказами дисков, и показаниями этой службы. Было выявлено несколько критичных параметров, события которых чаще других вызывали впоследствии отказы таких дисков.

Scan Errors

Жесткий диск обычно постоянно проверяет чтение с поверхности физических дисков, и, в случае каких-либо затруднений в этом уведомляет S.M.A.R.T. В рассматриваемой популяции примерно 2% дисков на момент начала исследования имело ненулевые показатели Scan Errors, причем такие диски достаточно равномерно распределились между различными производителями и их моделями, то есть не шла речь о заведомо дефектных партиях. На графике ниже приведены показатели вероятности отказов для дисков, имевших ошибки Scan Error, и не имевших таких, по всем рассмотренным возрастным группам.

Также рассматривались вероятности отказа в зависимости от времени, прошедшего с момента регистрации ошибки, и анализировался характер и время сбоев для различных "возрастных групп" дисков и количества таких ошибок.

Вероятность отказа диска резко вырастала в несколько дней, следующих после регистрации ошибки, и продолжала непрерывно расти на протяжении всех наблюдаемых месяцев.

Вероятность отказа по всей наблюдаемой группе, после возникновения первого Scan Error. Пунктиром показаны границы статистически погрешностей.
Видно, что наибольший риск выхода из строя приходится на первые несколько дней после возникновения ошибки Scan Error.

Вероятность отказа после возникновения первого Scan Error, в зависимости от возраста диска.

В случае "нового" диска (с возрастом до 8 месяцев), если диск пережил первые несколько дней после регистрации Scan Error без сбоя, то вероятность его сбоя в дальнейшем относительно невелика и практически не возрастает. Однако чем "старше" диск на момент возникновения Scan Error, тем выше вероятность того, что на протяжении ближайших месяцев после Scan Error случится отказ. Для дисков возраста от года и старше, прирост такой вероятности за наблюдаемые 8 месяцев близок к линейному, что означает практическую неизбежность отказа, рано или поздно (к концу 8 месяца она дошла до 40%).

Вероятность отказа в зависимости от количества ошибок Scan Error. Рассмотрены варианты 1-2 ошибки и больше 2 зарегистрированных S.M.A.R.T. ошибок Scan Error. Множественные Scan Errors сильно увеличивают вероятность отказа, даже по сравнению с относительно высоким уровнем отказов после единичного Scan Error.

Таким образом, следует считать "пороговым" (threshold) значением для "scan error" - единицу. После первого же зарегистрированного scan error, вероятность отказа диска в следующие 60 дней становится выше в 39 раз!

Рассмотрим другой характерный параметр - Reallocation Counts - число реаллокаций, то есть логических перемещений неустойчиво читающихся блоков. Обнаружив такой блок на диске, контроллер диска производит "ремаппинг", переназначение адреса этого блока со старого, проблемного, на новый, находящийся в специально зарезервированной области блоков для реаллокации.

В рассматриваемой популяции дисков ненулевое значение reallocation count имело примерно 9% дисков. Хотя некоторые диски имели значительно более высокие значения reallocation count чем другие, но, по утверждениям авторов, наблюдавшийся и описанный тренд был примерно равен для всех рассмотренных моделей и не зависел от производителя и марки дисков.

Также, как и в случае со scan error, рост этого параметра прямо связан с повышенной вероятностью отказа диска в самое ближайшее время. В среднем зарегистрированное повышение вероятности отказа составляло 3-6 раз. Эффект влияния этого параметра S.M.A.R.T. на вероятность выхода из строя хотя и был значительно менее выраженным, чем в случае scan error, но также явно фиксировался.

Графики роста уровней ежегодных отказов, в зависимости от возраста дисков, и наличия или отсутствия у них ошибок Reallocate.

Влияние reallocation на вероятность отказа в ближайшие 8 месяцев (пунктиром показаны статистические отклонения). По горизонтали - месяцы, прошедшие с момента регистрации reallocaion, по вертикали - вероятность отказа (survival probability - "вероятность выживания" - величина обратная вероятности отказа). Через 8 месяцев из популяции, имевшей хотя бы один reallocaton, остаются в строю примерно 85% дисков.

Влияние возраста диска в месяцах, на вероятность отказа после reallocation. В зависимости от общего возраста диска, меняется вероятность его отказа после возникновения reallocate.

Влияние единичных реаллокаций (от 1 до 4), множественных (выше 4) и сравнение с "контрольной группой". Множественные реаллокации, по сравнению с первой же обнаруженной, уже сравнительно мало влияют на вероятность отказа в целом, в отличие от ситуации с Scan Error.

В оригинальной работе также рассмотрены влияния на вероятность отказов таких параметров, как Offline Reallocation (вероятность отказа после такого события в 21 раз выше нормы в следующие 60 дней), Probational Counts (в 16 раз выше нормы, в следующие 60 дней) и ряда других.

Сводный график зарегистрированных S.M.A.R.T. событий в наблюдаемой группе. Суммарное количество превышает 100%, так как возможно возникновение нескольких ошибок одновременно.

Таким образом, очевидно, что, на сегодня, S.M.A.R.T., как средство Self-Monitoring, Analysis and Reporting, выполняет свою работу неудовлетворительно. Около трети сбоев (36%) в рассматриваемой дисковой популяции в 100 тысяч дисков не было никак диагностировано его средствами, и произошло внезапно для S.M.A.R.T. Анализ, проведенный группой инженеров Google, также выявил недостатки в текущей, общепринятой настройке "порогов" (threshold) срабатывания средств уведомления о предстоящей аварии, во многих случаях эти пороги следовало бы значительно поднять.

Бесспорны перспективы средств автоматического мониторинга и предсказания, встроенные в диски, однако, на сегодня, доверять безоглядно нынешним средствам, какими являются S.M.A.R.T. и системы, построенные на его базе, и строить оценку вероятности отказов жестких дисков исключительно на оценке S.M.A.R.T. не следует.

Продолжение следует.

Ранее: О надежности жестких дисков: MTBF – что это?

Приводит ли большая нагрузка к увеличению вероятности выхода дисков из строя?

Метки: failures, google, hdd, smart
Раздел: review, techtalk | Комментарии (4)

Приводит ли большая нагрузка к увеличению вероятности выхода дисков из строя?

17 Сентябрь 2009, 8:00

Сегодня мы продолжаем разбирать результаты опубликованной специалистами Google научной работы, в которой анализируются причины отказов 100.000 жестких дисков в датацентрах Google на протяжении пяти лет.

Мы считаем само собой разумеющимся тот факт, что бо’льшая нагрузка на диски вызывает их более ранний выход из строя. Так ли это? Данные Google показывают, что это не так. Более того, результаты сами по себе неожиданны.

На графике мы также видим уже знакомый нам период "детской смертности" в первые три месяца. Однако если мы разделим диски в зависимости от их рабочей нагрузки, то мы увидим неожиданное. Да, высокая нагрузка (выше 75%) в первые три месяца действительно приводит к высокой "смертности" дисков. В это период диски под высокой нагрузкой, по уровню AFR - Annual Failure Rate - среднегодовому показателю отказов, достигают 12% (при усредненной по всем типам нагрузок - в районе 3%). Однако, что неожиданно, диски с низким уровнем (ниже 25%) нагрузки также имеют довольно высокий уровень, около 4%, а наиболее низкие показатели в этот и 6-месячный период имеют диски со средними (от 25 до 75%) показателями нагрузки.

Переработка - плохо, но и простой - почти также нехорошо.

Далее же, в периоды 1 года, 2 и 3 лет, показатель уровня отказов практически не меняется от величины нагрузки на диски. ?? только после 4 года, и на пятый год, наблюдается заметное повышение уровня отказов для сильно нагруженных дисков, которое мы ожидали бы увидеть с самого начала. Таким образом, после первого полугода работы, уровень рабочей нагрузки на диски практически никак не сказывается (доли процента) на количестве их отказов. В ряде же случаев, наоборот, слабо загруженный диск имеет больше шансов вылететь, чем диск с рабочей нагрузкой среднего уровня. Диск, находящийся в Hot Spare вовсе не застрахован от внезапного выхода из строя.

Если же перед вами стоит задача быстро "выбраковать" диски, то имеет смысл сразу нагрузить их, и получить повод поскорее избавиться от потенциальных "отказников".

Продолжение следует.

Начало: О надежности жестких дисков: MTBF – что это?

Метки: failures, google, hdd
Раздел: review, techtalk | Комментарии (8)

О надежности жестких дисков: MTBF – что это?

14 Сентябрь 2009, 8:00

Давно, еще в 2007 году, я публиковал в одном из первых постов этого блога, ссылку на исследование группы инженеров Google, которое они обнародовали на одной из конференций исследовательской группы USENIX (USENIX File and Storage Technologies, 2007 - FAST07). На сегодняшний день это самое крупное такое исследование по количеству наблюдавшихся “в естественной среде” жестких дисков. Несмотря на то, что документ этот широко доступен, уверен, что мало кто сел и внимательно прочитал его целиком, а потом еще и подумал над содержимым. Потому что результаты там, подчас, предстают самые неожиданные.

??нженеры Google собрали статистику по отказам для примерно 100 тысяч дисков в своих датацентрах. Особо интересно нам, смертным, то, что Google использует у себя в серверах широкораспространенные consumer-series диски PATA и SATA (обеспечивая отказоустойчивость и надежность хранения инфраструктурно, за счет распределенной самописанной файловой системы хранения), то есть все те самые диски, которые окружаю нас повседневно, а не какие-то особенные, "энтерпрайзные". Документ, озаглавленный Failure Trends in a Large Disk Drive Population (pdf 242 KB) содержит статистический анализ примерно за пять лет их срока службы, при этом непосредственное наблюдение и снятие показателей заняло 9 месяцев. Несколько интересных, а подчас и неожиданных тем, обнаруженных при прочтении:

1. MTBF - Mean Time Between Failure - ожидаемый срок службы до сбоя. Что это?

MTBF - это традиционно приводимый производителям параметр, долженствующий, по их мнению, характеризовать надежность выпускаемых ими жестких дисков. Это искусственно вычисляемый срок в часах работы, которые ожидаемо должны проходить от одного отказа до другого, в случае соблюдения эксплуатационных норм (в том числе смены диска на новый, при окончании его гарантийного срока!). Эта величина, как очевидно, предполагает некую линейность в вероятности отказов. Так ли это на самом деле? Нет. Результаты Google показывают, что Annual Failure Rate, ежегодный процент отказов, для жестких дисков нелинеен в зависимости от их срока службы.

В принципе, приведенный в работе график вероятности отказов не содержит какого-то откровения. Первоначальный пик в первые три месяца достаточно хорошо известен для любой техники, как "период обкатки". Если оборудование пережило этот неприятный первоначальный период, то в дальнейшем вероятность отказов заметно снижается. Отказы начинают нарастать к окончанию планового срока службы, "гарантийному сроку", в результате "механического износа", чем бы он ни вызывался. Но интересно, что диски двух- и трехлетнего возраста имеют вероятность отказа в четыре раза(!) выше, чем диски первого года службы.

Следует, однако, отметить, что значительный “выброс” в районе 2-3 года, по утверждениям Google, сильно зависит от марок и производителей жестких дисков. В частности, утверждается, что это связано с тем, что более новые модели (следовательно, прослужившие малые сроки), поступающие в датацентры, оказывались объективно более надежными, что вызвало снижение количества отказов в эти периоды. По понятным причинам в работе не называются более или менее надежные марки и производители.

Тем не менее, 9% AFR означает то, что на системе хранения в сто дисков, купленной три года назад, после окончания трехлетнего гарантийного срока, вы скорее всего получите 8-9 мертвых дисков в течении следующего года. Дисков, которые придется менять уже не по вендорской гарантии, а за свои деньги.

??нтересен спад отказов в 4 год, возможно вызванный просто "снижением поголовья". Дальнейший рост, однако, с большим разбросом (значок на верхней границе столбика), говорит уже о простом механическом износе оставшихся экземпляров.

Практический вывод для администратора систем хранения и серверов не находящихся на вендорской гарантии: Если есть такая возможность, регулярно списывайте и меняйте ваши жесткие диски по прошествии года, или двух лет службы. Замена дисков, во многих случаях, с учетом постоянного снижения их цены, обойдется дешевле, чем постоянно повышающийся риск их отказа. Для оборудования на вендорской гарантии, всерьез рассмотрите необходимость эксплуатации дисковых систем на критичных участках инфраструктуры за пределами их гарантийного трехлетнего срока. Малое число отказов за прошедшие два-три года не означают продолжение такой практики на четвертый год. Возможно имеет смысл всерьез задуматься об обновлении парка, или вложиться в расширенную гарантию.

Однако же про MTBF. Для consumer-series дисков периода 2002-2007 годов, обычно указывался MTBF равный 300.000 часов. 300.000 часов это 34 года непрерывной работы (300.000/24/365)! Если предположить, что MTBF имеет линейную природу, то это должно было бы означать AFR равный 1,46%, что, очевидно, не выполняется никогда, даже в лучшие периоды. Нетрудно посчитать, что, от партии в 100.000 штук, всего за пять лет, при приведенных в работе Google показателях отказов, останутся в живых только примерно 70% дисков.

Классический пример параметра "с потолка" и "ни о чем". Мы видим, что использовать его для реальной оценки надежности дисков нельзя.

Продолжение следует.

UPD: Еще одна интересную и содержательную статью о том, что же такое MTBF, как он вычисляется и как правильно его результаты трактовать “в жизни” смотрите тут:
http://habrahabr.ru/post/122529/

Метки: failures, google, hdd, mtbf
Раздел: review, techtalk | Комментарии (4)

О вероятностях сбоев в серверной DRAM

Приводит ли повышенная температура среды к частому выходу дисков из строя?

S.M.A.R.T – Self-Monitoring, Analysis and Reporting Tool. Насколько он полезен?

Приводит ли большая нагрузка к увеличению вероятности выхода дисков из строя?

О надежности жестких дисков: MTBF – что это?

Страницы

Рубрики

Архивы