Posts tagged ‘bigdata’

??спользование решений BigData в NetApp: ASUP

??нтересный пример использования решений BigData внутри компании NetApp приводится в одном из ее корпоративных блогов. В 2011 году для поддержки решений AutoSupport, службы NetApp по сбору статистики, ее анализу и проактивному реагированию, было развернута система хранения и обработки с использованием ПО Apache Hadoop, одного из наиболее известных открытых решений для BigData. Вы должны помнить, что несколько лет назад NetApp приобрел и развивает продуктовую линейку LSI/Engenio, ныне выпускающуюся под маркой NetApp E-series, а также поставляемую нескольким традиционным OEM-партнерам, например IBM (DS-series systems) и Dell (MDS). ??мея возможность непосредственного (а не через SAN) подключения дисков массива (по протоколу SAS) к серверам-узлам Hadoop, стораджи E-series оптимально подходят для построения BigData-решений, так, например, NetApp совместно разрабатывает подобные продукты совместно с HortonWorks, одним из разработчиков “коммерческого дистрибутива” на базе открытого Hadoop.

AutoSupport (ASUP) - это система мониторинга и анализа состояния и производительности систем хранения, установленных у пользователей. Каждая такая система отправляет в условленное время собранную статистику работы, логи системы, диагностическую информацию о своей работе, на сервера NetApp, сервера анализируют полученные данные, парсят логи, отслеживают разнообразные тренды, опасные ситуации, возможности оптимизации, и отображают результаты на доступной пользователю системы вебстранице-”дашборде”.
Однако с ростом объемов проданных и подключенных в ASUP систем, а также увеличении сложности крутящихся на ней инструментов аналитики стали расти и масштабы ранее недостаточно оцененных проблем масштабирования.

Чтобы была яснее проблема, просто приведу примеры, что на момент начала разработки BigData решения, база ASUP собирала около 1,1 миллиона присылаемых ей от систем хранения записей данных, каждая размером около 3-5 мегабайт, причем 40% этих 1,1 миллиона присылается в выходные, во время традиционного “weekend call home” систем NetApp, с отчетом за неделю.
Некоторые запросы к этим данным могли выполняться недели (!).

Проблема усугублялась тем, что 90% получаемых данных можно назвать unstructured, что крайне усложняет их обработку, например затрудняя размещение их в “классических” реляционных базах данных. Объемы хранения в ASUP удваиваются каждые 18 месяцев, и на момент написания заметки они составляли около 200 миллиардов записей.
Хранить все эти данные необходимо, так как большой объем позволяет точнее выявлять тренды и анализировать возможные проблемы.

Как вы видите, NetApp столкнулся с классическим случаем работы с BigData - огромным объемом постоянно пополняемых данных, имеющих неструктурированную природу. Попытка решить ее “традиционным”, не-big data, путем была сочтена слишком дорогостоящей, поэтому, когда возникла идея построить BigData решение, это сразу было реализовано.
В результате удалось реализовать SLA для ETL-процедур (extract, transform, load) с очень жесткими рамками: 15 минут для обычных данных, и 2 минуты для высокоприоритетных. Сокращение затрат времени на построение подобной системы по сравнению с ранее рассматривавшейся “классической” составило 47-60%.