Archive for Май 2007

Что у нас “внутре”

?? все же, что же внутри системы хранения FAS от Network Appliance? Ответ на этот вопрос есть хороший повод представить вам блог Дэйва Хитца (Dave Hitz), одного из трех отцов-основателей и вице-президента компании, регулярно обновляющийся на вебсайте NetApp (http://blogs.netapp.com/dave) - черезвычайно интересный источник сведений не только о корпоративных пресс-релизах, как это обычно характерно для корпоративных блогов, но и о множестве интересных вещей, происходящих как в компании, так и в отрасли систем хранения в целом.
Не так давно ответ на приведенный вопрос давал сам Дэйв, и мне остается только поместить сюда перевод его поста:

Часто возникает вопрос: «Data ONTAP это UNIX?»
Первая версия Data ONTAP была основана на коде Berkeley Net/2 (одного из ранних open source версии UNIX) включавшего в себя TCP/IP стек, системный загрузчик и драйвера устройств. С тех пор мы использовали множество источников open source кода различных UNIX-релизов. Мы написали «с нуля» интерфейс командной строки, но мы сделали его настолько похожим на стандартный шелл UNIX, поскольку наш исходный рынок ориентировался на системных администраторов UNIX. Таким образом ONTAP без сомнения имеет отношение к UNIX.

Однако, с другой стороны, архитектура ONTAP сильно отличается от обычной архитектуры UNIX. Тут нет user space, файловая система полностью иная, чем что-либо использующееся в UNIX, RAID и дисковая подсистема полностью иная, и самое важное, все взаимодействие между подсистемами сильно отличается от того что принято в UNIX. Основные методы передачи данных между сетью и дисками полностью иные чем то, что используется в различных версиях UNIX.

Можно представить себе два различных пути создания «устройства хранения данных». Вы можете начать с UNIX и «отсечь от него лишние куски». ??ли вы можете начать «с чистого листа», изобретя новую архитектуру, оптимизированную под необходимые задачи, используя разработки open source code. Мы выбрали последнее.

??нтересно также то, что наша новая ONTAP GX (в отличие от «традиционной» ONTAP G7) основана на «полноценном» UNIX-релизе. Мы взяли Data ONTAP, включая RAID и WAFL, скомбинировав его с кодом, пришедшим к нам после приобретения компании Spinnaker, и разместили результат во FreeBSD, в комбинации юзер- и кернел-модулей. ??з соображений безопасности и упрощения мы запретили и скрыли множество частей стандартного FreeBSD.

Но вообще говоря даже ONTAP GX не является вариантом «взять UNIX и отсечь все лишнее», поскольку большинство наших системных функций работает внутри больших модулей уровня ядра, «выкидывая» средства UNIX при своей работе. Они отбирают управление почти всей памятью и критически важными для системы драйверами, кроме того мы переписали планировщик задач, чтобы быть уверенным, что UNIX-части не помешают нам при работе. ?? мы все также не используем стандартные UNIX-ные методы внутренней передачи данных (data path).

В чем разница? Одна из причин использования хост-юникса была в том, что нынешние CPU гораздо мощнее тех, с которыми мы начинали (наш первый продукт использовал i486 50MHz), поэтому небольшой оверхед на средства поддержки стандартного UNIX теперь значит для суммарной производительности гораздо меньше.

К тому же, когда мы начинали, не было ни Linux, ни FreeBSD, а AT&T и Berkeley University вели нескончаемую судебную битву за права на большие куски кода Berkeley Net/2.

Часто для многих пользователей, впервые сталкивающихся с миром серьезных систем хранения данных, является откровением то, что внутри многих «железок», считающихся «монолитными» работает та или иная операционая система, причем зачастую обычно знакомая нам по системам общего применения. Так внутри EMC «живет» Windows XP (ранее Windows NT), в системах хранения Hitachi Data Systems используется OS VxWorks компании Wind River, многие системы хранения начального сегмента используют те или иные версии Linux, а системы хранения high end класса компании IBM модели DS8000 несут в себе внутри AIX 5. В использовании операционных систем, в том числе OS «общего применения», таких как Windows NT или AIX, нет ничего «порочащего» таковые системы хранения, ведь главное не «что», а «как». Выше я привел рассказ о том, как именно создается и используется внутренняя OS в промышленной системе хранения данных.

Rumours…rumours…

“Ходят слухи”.

Например, ходят слухи, что Dell подозрительно активно интересуется возможностью приобрести бизнес систем хранения EMC CLARiiON.
??ли EMC очень интересуется, не хочет ли Dell прикупить себе производство Кларионов целиком, раз уж он их так успешно продает как OEM-партнер.

??ли оба эти предположения слухи, также как и то, что разрабтка EMC CLARiiON уже в этом году полностью переедет в Санкт-Петербург.

Не знаю. Сами думайте. Но вот птички такое напели.

Подробнее про A-SIS

Немного подробностей о вышеупомянутой новинке: технологии де-дупликации - A-SIS (Advanced Single Instance Storage).

Технология базируется на существующей у файловой системы WAFL, использующейся внутри системы хранения, функции вычисления 16-разрядного “хэша”, уникальной контрольной суммы для каждого записываемого 4kb-блока. Занесенный в специальную внутреннюю базу данных, такой хэш позволяет для каждого записываемого блока проверить, не существует ли такой точно блок уже записанным на диск. Логично было бы, в случае если абсолютно точно такой блок данных уже присутствует на диске (а хэш-функция позволяет устанавливать идентичность блоков данных с абсолютной точностью), не занимать место на диске под еще одну копию данных, а хранить в каждом новом экземпляре блока данных только ссылку на единственную его копию.

Такой очевидный трюк “виртуализации” хранения данных к сожалению до сих пор не был реализован в “живой природе” по причине слишком высокой нагрузки на систему хранения при всех сопутствующих данному действию операциях (вычисление хэша, сохранение в базе данных, выборка по базе, создание линка и т.д.). Тем не менее те или иные реализации де-дупликации данных начали появляться, правда их реализации страдали многими “детскими болезнями”. Одной из первых такую технологию предложила год назад компания Network Appliance, правда, она была весьма ограничена в применении, поскольку использовалась только на “файловом” уровне, то есть определяла дубликаты файлов на NAS-системе, и работала только для задач резервного хранения, совместно с непростой и дорогой системой резервного копирования NetBackup технологического партнера NetApp компании Symantec (ранее Veritas).

?? вот теперь, наконец, представлена полноценная система де-дупликации, работающая не только для файлов и для резервного копирования, но и для вообще любого, в том числе для “блочного” типа доступа, то есть работающего не только для NAS, но и для SAN! Не только для резервного копирования, где, без сомнения, де-дупликация сама по себе была черезвычайно полезна, даже несмотря на необходимость использования “тяжелого” и дорогого NetBackup, но и для любых используемых данных вообще!
Утверждается, что эффективность применения де-дупликации A-SIS может составлять от 20:1 до 50:1 “компрессии” хранимой емкости!

Еще более привлекательной эту технологию делает запланированная цена лицензии (как и все прочие функции системы хранения NetApp она уже существует в коде системы, и лишь включается введением соответствующей лицензии):
для Nearstore - бесплатно (!), для FAS - 3000$.

Где же нас Как насчет performance impact, влияния новой опции на производительность? Сам NetApp называет ее “незначительной” (1-3%), однако ждем более независимых и более “численных” результатов.
Так или иначе, никакого другого эпитета для этой технологии, чем весьма девальвированное в последнее время слово “революционный”, мне по этому поводу на язык не приходит.

См. также сообщения в компьютерной прессе:

C-News
E-Week
TechTarget

Суровой телеграфною строкой

Сегодня, наконец, появилось подтверждение давним слухам о подготовке смены для морально (и “материально”) устаревшей серии FAS200 (FAS250 и FAS270)
Проект под внутренним названием Shuar (внутреннее название FAS200 было Tsantsa, налицо людоедская преемственность) объявлен. Его официальное представление партнерам и начало доступности к заказу случится 11 июня, однако официальный ‘релиз’ для клиентов планируется только к сентябрю (маркетинговая активность, результаты тестов производительности). В начале июня “любимым партнерам” поступят первых 40 систем для демо, в середине лета еще 100, начало промышленных поставок, как говорилось выше, сентябрь 2007.

Однако первые данные появились уже сейчас:
Официальное название серии достаточно очевидно - FAS2000.
В настоящий момент планируется две модели: FAS2020 и FAS2050
Аппаратная платформа - Intel Xeon (ранее в моделях начального уровня использовались относительно маломощные для сегодняшнего дня процессоры архитектуры MIPS).
Жесткие диски по интерфейсу: SAS (sic!) и SATA. FC не будет даже как опции. Что, в общем, логично.
FAS2020 - up to 24TB/40HDD, 2GB RAM.
FAS2050 - up to 69TB/104HDD, 4GB RAM.
??зменился конструктив, вместо 14 вертикально расположенных дисков используется корпус с довольно популярным для систем начального уровня горизонтальным расположением 20 дисков, аналогичный уже выпускаемой модели для SMB - StorVault.
Планируемые ценовые диапазоны: 2020 - 10k..15k$, 2050 - 15k..50k$
Подробнее расклад по типовым конфигурациям будет чуть позже.

Да, о типовых конфигурациях, будут предлагаться “бандлы” для решения тех или иных задач по спецценам, так называемая программа NetApp Select.

Это “главная новость этого часа”, более того, как я понимаю это первая публикация о новых системах в интернете, уж по крайней мере первая публикация на русском.

О других новостях вкратце:

В области ПО чуть ранее (15 мая) был объявлен продукт (лицензия для FAS и Nearstore) A-SIS: Advanced Single Instance Store - de-duplication.
Ранее такая возможность была предоставлена для систем дискового резервного хранения Nearstore с Symantec NetBackup, но с множеством ограничений, главное из которых - работа только на файловом уровне (для NAS).
Ныне же это полноценный “блочный” дедупликатор. ??спользуются уже имеющиеся функции систем хранения, и, в частности, внутренней файловой системы WAFL. Для каждого блока файловой системы WAFL рассчитывается 16-разрядный хэш, хэши блоков заносятся в базу данных, и при записи анализируется хэш - если хэш блока совпадает с уже имеющимся, то хранится только указатель на уже записанный аналогичный блок. Объявленные ограничения: не работает на FlexVol (только ‘traditional’), пока не работает с VTL (есть ‘бета’, ожидается релиз для VTL в начале лета, и это будет ОЧЕНЬ usable по вполне понятным причинам), максимальный объем тома - 16TB.
Эффективность в плане экономии места ожидается огромная (упоминаются цифры до 50:1, во что легко верится), а по утверждениям вендора потери в производительности - минимальные. Посмотрим.

Объявлено о новом члене в “технологических партнерах” компании, теперь к Oracle, Symantec, Microsoft и SAP добавилась VMware. Для использующих NetApp и VMware это означает более глубокую интеграцию, взаимное приоритетное использование технологических новинок, разработка Best Practices, утилит и рекомендаций. Приоритетным направлением будет также обеспечение максимально широкой совместимости продуктов. Совместная работа двух инженергых команд NetApp и VMware ведется уже некоторое время, так что результаты не заставят себя ждать. Обоим партнерам есть что друг другу предложить.

В семейство продуктов SnapManager добавятся два новых: SnapManager for MS Sharepoint и SnapManager for SAP. Эти продукты есть прямой результат сотрудничества соответствующих компаний в рамках “технологического партнерства”, позволивший создать продукт, глубоко интегрированный в API соответсвующих систем, в данном случае MS Sharepoint и SAP mySAP. С использованием такой интеграции появилась возможность использовать снэпшоты системы хранения NetApp для быстрого сохранения и восстановления данных приложения в виде простого в управлении “трехкнопочного” (’сохранить состояние’, ‘восстановить состояние’, ‘закрыть’ ;) интерфейса администратора. Еще один шаг по пути, начертанным девизом NetApp - “Simplifying Data Management”.

О надежности жестких дисков

??нтересная информация и тема для углубленной медитации для любого специалиста, имеющего отношение к системам дискового хранения.

Статистика отказов HDD в дата-центрах Google
Failure Trends in a Large Disk Drive Population

Статья на USENIX
Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?
Рассмотрены около 100000 дисков (SCSI, SATA, FC).

PS: Разумеется, марки и производители жестких дисков в статистике не раскрываются. Но и без них для размышлений и развития аналитической мышцы много чего есть.

О сбалансированности

В практике каждого системного интегратора случаются проекты далекие от идеального “проекта мечты”, часто на пути к реализации “идеальный проект” обрастает правками, как днище корабля ракушками, настолько, что к реализации приходит уже совсем иная система, нежели та, что изначально планировалась. К сожалению, далеко не всегда эти изменения идут проекту на пользу. Давайте рассмотрим наиболее частые случаи.

«Перелет» – система «навырост».

Достаточно распространенный случай несбалансированной системы это покупка системы «навырост», под дальнюю перспективу, неоправданную на сегодняшний день, либо с переоценкой потребностей. Немалую роль в этом играют и сами системные интеграторы, которые всегда рады «исполнить любой каприз заказчика за его деньги», и, разумеется, поощряющие его на такие дорогостоящие капризы. Чаще всего они пользуются как неадекватной оценкой потребностей клиента (например, отсутствием или неверно выполненным анализом необходимой производительности информационной системы, частью которой становится система хранения, завышением требований), либо путаницей, зачастую преднамеренной, созданной многочисленными маркетинговыми обещаниями.

«Мы не хотим покупать систему с 2GB FC портами, ведь уже есть 4GB порты, а они вдвое быстрее!».
«Нам нужна система хранения с самыми быстрыми дисками, на 15K. Ведь когда у нас стояли в сервере два диска SCSI на 10K, все было очень медленно».
«Мы хотим библиотеку на дисках BluRay, потому что это самая новейшая технология. Библиотеки на магнитных лентах давно устарели!»

В защиту такого поведения системных интеграторов следует сказать, что зачастую процесс апгрейда имеющейся системы хранения для оборудования большинства вендоров-создателей систем хранения зачастую сопряжен с серьезными временными и денежными затратами (приятным исключением являются системы Network Appliance). Затраты настолько велики, что зачастую выгоднее становится, при малейшем подозрении на перспективы значительного роста (и зачастую невозможности провести адекватный «сайзинг»), потратить сегодня больше, с тем чтобы отодвинуть время необходимости смены системы хранения как можно дальше в будущее, а в идеале передать этот хлопотный и мучительный процесс следующему IT-менеджеру ;)

«Недолет» – всюду жмет.

Часто приходится сталкиваться и с обратным случаем. В особенности такое происходит в случае «предельно бюджетного» варианта. Недооценка в данном случае также вредна, как и переоценка. Покупка системы, не обеспечивающей решение запланированных задач является, как правило, бессмысленной тратой денег, безрезультатным расходом бюджета IT-отдела, который вместо этого можно было бы пустить на цели, могущие дать в этом случае реальный прирост производительности IT-системы. Ведь, как правило, «узкое место» бывает не одно. Приобретение такой системы бывает следствием мнений:

«Давайте купим самую дешевую систему, ведь главное, чтобы на нее поместилась наша база данных!»
«Может быть просто купить 6 дисков SATA для нашего сервера, и этого будет достаточно?»
«Мне выделили 3 тысячи долларов на покупку системы хранения, надо купить что-нибудь крутое за эти деньги. Например терабайта на два-три».

Результатом может быть лишь разочарование.
Впрочем даже не выполняющая свои задачи система хранения увеличивает общую капитализацию компании, и бонусы как продавца, так и покупателя, что в ряде случаев также может оказаться полезным ;)

Несбалансированная система – «перекосы».

Обычно это частный случай рассмотренного выше, сочетание первого и второго, когда в системе что-то одно «жмет», а что-то другое «навырост».

4GB FC ports и диски SATA
Диски 15Krpm на системе для резервного копирования данных.
Восьмипроцессорный сервер под 1С:Предприятием 7.7

При несбалансированности решения вполне можно потратить бездну денег и получить 5% прирост производительности. Хороший пример – недорогая система хранения начального уровня, наполненная дисками 15K. По сравнению с дисками 10K цена вырастает минимум на треть, однако вовсе не факт, что на недорогой системе хранения производительность вырастет в полтора раза, как это могло бы быть на более мощной системе с большим кэшем и более мощным процессором обработки. Просто возникает эффект «бутылочного горлышка»: как ни дави, сколько ни трать денег, все равно больше, чем просочится через самое узкое место, из системы не выжать. Происходит эффект мотора от Феррари на Жигулях. Много дыму, рева, расхода высококачественного бензина, однако реальная скорость передвижения практически не увеличилась.

В отличие от выше рассмотренных вариантов, где решение зачастую диктуется самим клиентом (или его финансами), в рассматриваемом случае, без сомнения, вина за продажу несбалансированной системы прежде всего ложится на системного интегратора

«Недодумали» или «переоценили».

Достаточно часто встречаются в жизни даже не столько «системные» перекосы, такие как рассмотренные выше, а мелкие, локальные, но имеющие не менее губительные последствия. Наиболее часто встречается несовместимость проданного оборудования и программного обеспечения или разного оборудования между собой.
В случае «многовендорного» интеграционного проекта, с множеством участников со стороны производителей оборудования и ПО, «матрица совместимости» проекта может расти в геометрической прогрессии. Учесть всю возможную специфику взаимодействия программных и аппаратных компонентов, взаимодействующих «каждый с каждым», бывает достаточно непросто.
В рассмотренном случае вина за проблемы ложится целиком на системного интегратора.
Однако зачастую проект начинает перекраиваться по требованию заказчика. Во множестве случаев у интегратора не оказывается достаточно «рычагов» и сил, чтобы воспрепятстсвовать такому вмешательству “специалистов, которые платят деньги и заказывают музыку”.

Пример из жизни
Крупный химический завод хочет создать отказоустойчивую систему управления производством, использующую базу данных Oracle. Для этого создается кластер на базе Veritas Cluster Server из двух серверов SUN, приобретается common storage EMC CLARiiON CX, к которому по FC подключаются два сервера SUN Fire V. Казалось бы, все хорошо: в случае выхода из строя одного из серверов, с помощью служб VCS задача системы управления производством, представляющая собой БД Oracle и написанные вокруг нее приложения, рестартует на резервном сервере. Однако в какой-то момент из спецификации «в целях экономии IT-бюджета» вычеркивается Veritas Storage Foundation с журналируемой файловой системой VxFS для Solaris. ?? все устанавливается на обычный UFS.

?? теперь в случае выхода из строя первичного сервера, резервный запускается, монтирует на себя common storage на EMC CLARiiON, и… запускает fschk.
На 20 минут.

«“Немного недодумали” чаще всего означает, что не думали вообще».

Welcome drink ;)

“Пришло время потолковать о многих вещах: о башмаках, о кораблях, о сургучных печатях, о капусте и о королях.”

Привет, это блог. :) Должно быть, вы уже знаете, что это такое.
Формат блога позволяет писать мне гораздо более неформальные вещи, чем те, которые позволено говорить от лица той или иной компании. Я постараюсь писать тут не только о компании NetApp и ее продукции, которой посвящен этот вебсайт, но и обо всем, что будет мне интересно и относиться к теме хранения данных.

Если вы перемножаете в уме шестнадцатиричные числа, не задумываясь знаете сколько хостов в подсети с маской /12, и ваша броня выдерживает прямое попадание хорошего маркетолога, то вряд ли вы здесь найдете что-то особенное для себя.

Целью этих еженедельных записок будут прежде всего те наши коллеги, что только знакомятся с областью сетевых систем хранения данных (не обязательно NetApp), те люди, для кого в этой области пока больше вопросов, чем ответов. У которых все гигабиты и терабайты еще впереди, но они, будем надеяться, надвигаются неотвратимо.

Надеюсь, им будет тут что почитать.