??спользование решений BigData в NetApp: ASUP

??нтересный пример использования решений BigData внутри компании NetApp приводится в одном из ее корпоративных блогов. В 2011 году для поддержки решений AutoSupport, службы NetApp по сбору статистики, ее анализу и проактивному реагированию, было развернута система хранения и обработки с использованием ПО Apache Hadoop, одного из наиболее известных открытых решений для BigData. Вы должны помнить, что несколько лет назад NetApp приобрел и развивает продуктовую линейку LSI/Engenio, ныне выпускающуюся под маркой NetApp E-series, а также поставляемую нескольким традиционным OEM-партнерам, например IBM (DS-series systems) и Dell (MDS). ??мея возможность непосредственного (а не через SAN) подключения дисков массива (по протоколу SAS) к серверам-узлам Hadoop, стораджи E-series оптимально подходят для построения BigData-решений, так, например, NetApp совместно разрабатывает подобные продукты совместно с HortonWorks, одним из разработчиков “коммерческого дистрибутива” на базе открытого Hadoop.

AutoSupport (ASUP) - это система мониторинга и анализа состояния и производительности систем хранения, установленных у пользователей. Каждая такая система отправляет в условленное время собранную статистику работы, логи системы, диагностическую информацию о своей работе, на сервера NetApp, сервера анализируют полученные данные, парсят логи, отслеживают разнообразные тренды, опасные ситуации, возможности оптимизации, и отображают результаты на доступной пользователю системы вебстранице-”дашборде”.
Однако с ростом объемов проданных и подключенных в ASUP систем, а также увеличении сложности крутящихся на ней инструментов аналитики стали расти и масштабы ранее недостаточно оцененных проблем масштабирования.

Чтобы была яснее проблема, просто приведу примеры, что на момент начала разработки BigData решения, база ASUP собирала около 1,1 миллиона присылаемых ей от систем хранения записей данных, каждая размером около 3-5 мегабайт, причем 40% этих 1,1 миллиона присылается в выходные, во время традиционного “weekend call home” систем NetApp, с отчетом за неделю.
Некоторые запросы к этим данным могли выполняться недели (!).

Проблема усугублялась тем, что 90% получаемых данных можно назвать unstructured, что крайне усложняет их обработку, например затрудняя размещение их в “классических” реляционных базах данных. Объемы хранения в ASUP удваиваются каждые 18 месяцев, и на момент написания заметки они составляли около 200 миллиардов записей.
Хранить все эти данные необходимо, так как большой объем позволяет точнее выявлять тренды и анализировать возможные проблемы.

Как вы видите, NetApp столкнулся с классическим случаем работы с BigData - огромным объемом постоянно пополняемых данных, имеющих неструктурированную природу. Попытка решить ее “традиционным”, не-big data, путем была сочтена слишком дорогостоящей, поэтому, когда возникла идея построить BigData решение, это сразу было реализовано.
В результате удалось реализовать SLA для ETL-процедур (extract, transform, load) с очень жесткими рамками: 15 минут для обычных данных, и 2 минуты для высокоприоритетных. Сокращение затрат времени на построение подобной системы по сравнению с ранее рассматривавшейся “классической” составило 47-60%.

Комментарии (5)

  1. Pavel:

    На мой взгляд статья - чистый незамутненный маркетинг.

    Например эта строчка
    “Некоторые запросы к этим данным могли выполняться недели (!).” Недели на чём? Я тоже могу написать программу, обрабатывающую что-либл недели. :)

    А вот эта строчка с точки зрения смысла - странная: “Однако с ростом объемов проданных и подключенных в ASUP систем, а также увеличении сложности крутящихся на ней инструментов аналитики.”

  2. Pavel:

    > На мой взгляд статья - чистый незамутненный маркетинг.

    Есть такая широко распространившийся синдром в интернете - “адвертофобия”, страх того, что вам что-то скрыто рекламируют. :D
    Как вы считаете, маркетинг чего, в данном случае, вам проводится? Автосаппорта, понятия BigData, или опенсорсного Хадупа? ;)

    > Недели на чём?

    Неделя в прежней, не-bigdata, системе, на которой работал ASUP в 2011 году.

    > А вот эта строчка с точки зрения смысла - странная

    Она просто улетела недописанной. ??справил.

  3. Pavel:

    romx:
    В данном случае маркетинг NetApp E-series, “на котором так удобно запускать hadoop для анализа огромного объема данных”.

    Если бы статья была техническая, она бы была написана в стиле. В 2011 году у нас было решение такое-то. Мы столкнулись с такими трудностями, перепробывали такие решения и остановились на таком-то и таком-то потому-то и потому-то.

    P.S.: На самом деле у Вас очень хороший технический блог. Спасибо Вам за это! ?? я привык в нем читать достаточно сильные технические статьи. А тут был немного удивлен. Возможно это стало причиной того, что я воспринял эту статью как маркетинг.

  4. Pavel:

    > Если бы статья была техническая, она бы была написана в стиле.

    Все это было бы здорово, но увы, почти никакая компания не разглашает детали внутренних проектов.
    Причины этому, (кроме того, чтобы просто всех позлить:) лежат там же, где лежат причины, побуждающие какие-то компании не открывать код своих разработок. Не все можно (нужно, хочется) показывать всему миру, просто потому что “полработы не показывают”.
    Тем не менее, мне кажется, даже те сведения, что были опубликованы, достойны внимания.

    > В данном случае маркетинг NetApp E-series

    ?? что же в этом плохого? Совершенно серьезно спрашиваю.
    Вот у меня тут пару месяцев назад был человек, который просто НЕ ЗНАЛ, что у NetApp есть теперь (третий год уже пошел!) системы не SAN, а DAS, пригодные под Hadoop cluster. ?? мне показалось, что эта статья - прекрасный повод напомнить.

    > Возможно это стало причиной того, что я воспринял эту статью как маркетинг.
    Вы так это говорите, будто это что-то плохое” ™

  5. Pavel:

    > ?? что же в этом плохого? Совершенно серьезно спрашиваю.

    Ничего. Моя фраза “На мой взгляд статья - чистый незамутненный маркетинг.” была без какого-либо отрицательного контекста. Я сообщил свое мнение об содержании статьи. В ней тоже ничего плохого не было :)

    > “Вы так это говорите, будто это что-то плохое” ™

    ??нтересно, а как можно сказать что статья - это чистый маркетинг, и чтобы тебя не поняли что ты что-то ругаешь?
    ?? интересно, почему Вы слово “маркетинг” восприняли в отрицательном смысле? ;)

Оставить комментарий