Компрессия или дедупликация?

Появление в арсенале у NetApp такого средства экономии пространства хранения, как онлайн-компрессии данных, в дополнение к уже хорошо знакомому, надеюсь, процессу дедупликации, породило ряд вопросов и замешательство. Что выбрать? Что лучше?

Лучше то, что лучше работает на ваших данных и ваших задачах.

Обратите внимание, что использование дедупликации или компрессии не исключает одно другого. Вы вполне можете использовать ?? дедупликацию ?? компрессию на одном и то же томе. ??ли же выбрать что-то одно. Зависит от вашей задачи и характера даных.

Вот какой рисунок приводит NetApp по поводу эффективности дедупликации и компрессии в одном из своих документов (выше – лучше):

dedupe compress-rate

Выбор за вами. Напомню, что преимуществом дедупликации является “оффлайновость”, так как процесс дедупликации происходит после фактической записи данных, то дедупликация практически не ухудшает производительности на дедуплицированном томе. В то же время компрессия  “онлайновая”, и сильнее обычного загружает процессор контроллера системы хранения непосредственно во время записи-считывания данных. Преимуществом же онлайн-компрессии является то, что хорошо сжимаемые данные сразу займут на дисках при записи меньше места, в отличие от дедупликации, при которой такое место освободится только после окончания процесса дедупликации (как правило после нескольких часов). Кроме того, часть данных (см. рисунок) может плохо дедуплицироваться, но хорошо сжиматься.

Так или иначе, выбор в ваших руках. Напомню, что и компрессия, и дедупликация могут быть беболезненно отключены и “откачены” в случае обнаружения заметного негативного эффекта использования. Напомню, также, что, как и дедупликация, компрессия для системы хранения NetApp – бесплатна.

Комментарии (7)

  1. murzic:

    Добрый день.
    Существует ли возможность включить компрессию на DataONTAP 7 или придется переходить на DataONTAP 8 в обязательном порядке?

  2. Боюсь, что сложно сказать однозначно. В “пререлизе”, насколько я понимаю, была мысль, что она будет доступна как в ветке 8, так и в очередном релизе ветки 7 (после PVR, то есть анализа вашей конфигурации в NetApp, если по простому).
    Однако в “релизе”, в prerequisites, прямо указано не просто “8.0.1″, а еще и “64-bit aggregate”.

  3. Цитата:
    “Data compression requires 64-bit aggregates, which were introduced in Data ONTAP 8.0. As all aggregates created on Data ONTAP 7.x are 32-bit, this requirement may limit the use of compression to new data sets or existing data sets that have been migrated to a 64-bit aggregate. Trust me, we are working to eliminating the need for the later. I can’t say anymore at this time but stay tuned for updates on this subject.”
    http://blogs.netapp.com/virtualstorageguy/2010/12/introducing-data-compression-in-ontap-801.html

  4. alex nop:

    По-поводу Geoseismic есть очень большие сомнения: что-то странное имели в виду маркетологи NetApp-а. Скорее это не сейсмические данные, а данные для моделирования резервуаров, которые идут практически в текстовых файлах. Сама сейсмика не жмется, точнее жмутся только заголовки, а сами данные жать бесполезно потому что выигрыш не в разы, как тут указано, а в десятых долях процента. Соответственно, при больших объемах в 5-7Tb морских съемок 3D выигрывать 20-30Gb совершенно бессмысленно.

    P.S. Не ради флэйма, а только чтобы не было лишних иллюзий.

  5. alex nop: странные вы вещи пишете. Вы совершенно верно подметили, что тип данных зачастую мало говорит о содержимом, и, следовательно, эффективности компрессии, но делаете следом ровно ту же ошибку, выводя из _частного_ случая каких-то ваших данных, в каком-то вашем формате, общий вывод по всей “сейсмике”.
    ??з того, что _конкретно ваши_ данные сейсмики не жмутся, совсем не следует, что _никакие_, _ни у кого_ данные сейсмики не сожмутся.
    А вот у NetApp есть клиент, у которого жмется. :)

  6. alex nop:

    Как раз таки наоборот получается. Сейсмика - она и в Африке сейсмика и суть этих данных такова, что они не жмутся. А в материале используется слово Geoseismic, т.е. ничего другого тут подозревать нельзя. ?? на основе одного частного случая сжатия _петрофизических_ и _гидродинамических_ данных, которые на самом деле являются только моделями, дополняющими сейсмику, маркетологи сделали вывод, что жмётся вся сейсмика, т.е. перешли от частного к общему без зазрения совести.

    Дело в том, что такие материалы потом используют продавцы NetApp-а и они свято уверены в том, что там нет ошибок. После чего приходится долго и муторно рассказывать где они ошибаются и почему это не будет работать.

    По большому счёту мне всё равно… пусть думают, что сейсмика жмётся как текст, мне не жалко.

  7. Ну вот так получается, что в Африке какая-то другая сейсмика ;)

Оставить комментарий