Следящие за новостями IT в мире не могли пройти мимо нового баззворда, стремительно катящегося сейчас по англоязычным источникам - Big Data.
Согласно определению Википедии: “Big Data - это серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия, для получения человеко-читаемых результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, альтернативных традиционным системам управления базами данных и решениями класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.” Сам же по себе термин “Big Data” (”Большие Данные”) родился в статье 2008 года в журнале Nature, и образован по аналогии с понятиями “Большая Нефть”, или “Большие Деньги”, символизирующие переход количества (объемов, скоростей обработки) данных в их некое новое качество.
Таким образом, в первую очередь, Big Data это то, что не помещается в базу данных, и методы работы с такими данными, когда нельзя “написать SQL-запрос” к ним.
В значительной степени, сложность работы с Big Data как раз и определяется сложностью нового подхода, для которого не получается применять эффективно привычные методы. Представьте, каково это, например, работать с несколькими миллионами или даже миллиардами файлов, искать в них, извлекать из них данные, записывать.
Сравнительно недавняя покупка компанией продуктовой линейки Engenio, и ряда программных продуктов стороних разработчиков, будучи слитой воедино, дала значительный толчок для работ в этом направлении. Так, NetApp активно занялся работами в области Hadoop, одного из открытых продуктов Apache Foundation (один из крупнейших клиентов NetApp - компания Yahoo! - как раз давний и активный пользователь и разработчик решений с Hadoop). ??звестны их работы в области высокопроизводительных решений с использованием Lustre (о использующей Lustre системе хранения для суперкомпьютера в Lowrence Livermore National Laboratory я уже писал ранее).
Другим продуктом, активно развиваемым в NetApp в области Big Data, является решение StorageGRID, объектное хранилище данных, позволяющее, используя высокий параллелизм, строить хранилища данных для миллионов и миллиардов файлов, с мультиплатформенным доступом, в сотни петабайтов объемом.
Недавно вышедшая версия StorageGRID 9.0 добавила к уже существующим возможностям доступа по NFS и CIFS и доступ по недавно описанному и стандартизированному в SNIA протоколу Cloud Data Management Interface (CDMI), который позволяет обращаться к объектному хранилищу с помощью HTTP-подобных запросов, создавать, администрировать и доступаться к данным облачного хранилища, с размерами, превышающими общепринятые сегодня.
Хотя на сегодня, уверен, большинству пользователей такие задачи, что решаются объектными стораджами и Big Data, все еще кажутся далеким будущим, многие вещи, казавшиеся далеким будущим еще три-пять лет назад, стали практически повседневностью сегодня, и готовиться вендорам к таким делам приходится заранее, чтобы не оказаться “на обочине” рынка.
В настоящее время интерес к Big Data, к работе с данными в этой парадигме, к используемыми для этого методам, к стораджам, пригодным для хранения таких данных, является одним из самых быстрорастущих в сегодняшнем IT. По исследованию Gartner, в 2011 году рыночный тренд Big Data был только слегка ниже, чем по теме виртуализации.
В связи же с тем, что, по некоторым смутным слухам, NetApp раздумывает о том, чтобы поставлять решения на базе стораджей E-series, в первую очередь под Big Data, и на российский рынок, вполне возможно, что StorageGRID, CDMI, Hadoop и прочие решения найдут свое место и среди российских компаний.
http://dilbert.com/strips/comic/2012-07-29/