RAID-5 - must die!

Да уже и не must, а почти что almost.

Еще несколько слов аргументации за переход к RAID-6, тем, у кого он не тормозит, не будем показыват пальцем, но: “Есть такие вендоры!” ;).
Да, согласен, RAID-10 тоже вполне может пережить отказ двух дисков, если вам повезет, что это произойдет в разных половинах “зеркала”. Но только в этом случае.

—————
RAID 5 появился в 1987 году, и был вполне адекватен решаемым задачам на протяжении следующих 15 лет непрерывного роста. Обычный размер диска в 1987 был всего 21MB, да, именно МЕГАбайта, и скорость вращения была 3600 RPM. На протяжении следующих 20 лет, диски выросли до 1TB (в 50 тысяч раз больше, но только вдвое-вчетверо в скорости вращения). Этот огромный рост привел к проблеме и продемонстрировал ущербность данного уровня RAID.

Проблема заключается во времени, которое уходит на перестроение большого по объему RAID, которое может исчисляться днями. Это может привести вас к проблеме выхода из строя второго диска на том же RAID, в то время, как процесс ребилда еще не завершился. Величина под названием Annual Failure rate (AFR) для дисков становится лучше год от года, но это не устраняет проблему продолжающегося роста времени ребилда. Другая проблема состоит в том, что в процессе ребилда нагрузка на диски существенно возрастает, что, в свою очередь, увеличивает вероятность отказа, так что процесс ребилда сам по себе может быть для дисков еще опаснее*1 (до 2.5 раз).

Допустим, AFR (Annual Failure Rate, “вероятность отказа”) равен 5%*2, и время ребилда равно 1 дню. Мы используем 9-дисковый RAID-5 (8+1). Шансы получить второй дисковый отказ за это время равен 1/365 x 5% x 8 x 2.5= 0.25%. Допустим, у нас используется 100 таких групп по 9 дисков в RAID 5 в системе (900 дисков). Я могу ожидать, что получу 45 отказавших дисков в течении года. Во время прохождения ребилда я “бросаю кости”. У меня есть 1 шанс из 400 получить за время ребилда отказ второго диска, приводящий к потере данных, и я “бросаю” эти кости 45 раз в год. В течении 5 лет срока службы это означает вероятность 225 из 400 получить катастрофический сбой с потерей данных.

Давайте рассмотрим теперь тот же сценарий, но удвоим размер дисков, и понизим AFR (Annual Failure Rate, “вероятность отказа”) с 5% до 4% (имитировав развитие рынка HDD и выход новых боле емких моделей дисков). Теперь у нас уходит два дня на ребилд, так как удвоился объем, и формула выглядит так: 2/365 x 4% x 8 x 2.5= 0.4%. Те же 100 RAID-групп, те же цифры предположений, но риск двойной ошибки вырос до 1 к 200, хотя я “бросаю кости” только 36 раз в год. На протяжении пятилетнего срока службы это означает шанс 180 из 200 получить катастрофический отказ.

Это выглядит противоречащим здравому смыслу, но тем не менее это так. Да, диски становятся надежнее, но при этом, тем не менее, риск аварии возрастает.

Примечания:
*1: http://www.snia.org/education/tutorials/2007/fall/storage/WillisWhittington_Deltas_by_Design.pdf, см. слайд 50
*2: Официально опубликованный вендорский AFR для дисков всегда ниже 1%Однако множество источников называют размер этой величины вплоть до 12%, Можно считать, что величина “консенсуса” в данном вопросе находится обычно между 3% и 5%.

————-
Найдено и переведено там:
http://blogs.netapp.com/msenviro/2009/08/the-raid-10-upsell-fudbeast.html

Комментарии (8)

  1. bbk:

    У вас на картинке Raid 6/DP=8+1, это ошибка?

  2. Дима:

    Найти бы такой сайт, но посвященный НР:)

  3. Дима:

    Бросайте HP, айдате к нам :)

  4. Дима:

    Нет, русские на войне своих не бросают))
    Кстати, скажите пжл-та, почему в одной из статей Вы говорили, что стораджи НР - Sic transit gloria mundi?

  5. Дима:

    > Нет, русские на войне своих не бросают))

    Перефразируя Талейрана: “В бизнесе (как и в политике) нет предательства, а есть дальновидность” :)

    > Кстати, скажите пжл-та, почему в одной из статей Вы говорили, что стораджи НР - Sic transit gloria mundi?

    Sic transit gloria mundi - “Так проходит слава мирская”. ??ли вам не перевод нужен? ;)

    Потому что на протяжении нескольких лет HP откровенно разбазарил свое лидерство в стораджах, и несколько лет подряд теряет долю рынка, на фоне роста всех остальных вендоров Top5 (см. отчеты IDC).
    У HP наблюдается откровенный lack of vision, “потеря ориентации”. Обладая в свое время одним из лучших, и самым инновационным продуктом, ставшим EVA, HP забила на развитие, и дождалась его морального и технического устаревания и потери интереса рынка, решив вернуть его затем собиранием “лоскутного одеяла” брендов и технологий, чем только окончательно запутала потребителя.

    Так что приходите “Это будет мудро, мой друг!” (голосом Сарумана;).

    Те же отчеты по рынку показывают, что рост NetApp происходит в значительно мере за счет переориентации на него бывших клиентов HP:
    http://www.computerwoche.de/hardware/data-center-server/2500678/

    http://www.computerwoche.de/assets/galleries/detail-1849343.html?i=KC-DataCente&p=hardware.data-center-server.2500678.marktanalyse-von-ama-hp-muss-im-storage.p1&t=Wanderungsanalyse%20Storage-Installationen%20%u2013%20HP

  6. bbk:

    >Я могу ожидать, что получу 45 отказавших дисков в течении года.
    А как это у вас получилось 45 ?

  7. bbk:

    Задайте вопрос автору, сам я в математике не силен:

    Найдено и переведено там:
    http://blogs.netapp.com/msenviro/2009/08/the-raid-10-upsell-fudbeast.html

  8. bbk:

    Я так понял оригинал уже не доступен в полном виде. Там только один абзац текста.
    У вас нет случайно полного варианта?

Оставить комментарий