Снова про бенчмарки

Привет всем.
Пользуясь правами “хозяина места” вынесу свой комментарий, из разгоревшейся не на шутку дискуссии в комментах к предыдущему посту, и сформулирую свою позицию.

Как я уже отмечал когда-то в одном из постов, настоящий сисадмин готов неделями спорить до хрипа, сравнивая абстрактные цифры бенчмарков, преимущества IBM p-series перед HP Superdome, Lamborgini перед Ferrari, и AK-74 перед M16A4 (обычно никогда не видев, не ездив и не держав в руках ни того, ни другого;)
Вот и в моем блоге посты “про бенчмарки” собирают всегда “цвет аудитории”, и внимание, которое, по моему убеждению, тема совсем не заслуживает. Я бы с куда большим удовольствием увидел бы активность читателей в какой-нибудь куда более важной и осмысленной теме. Но… Что имеем.

Поэтому я хочу в очередной раз, для вновьпоявившихся, озвучить свою позицию по бенчмаркам.

Если резюмировать мою позицию в нескольких строках, то я считаю, что бенчмарки, в особенности для такой сложной техники, это инструмент для оценки, но совсем не сама оценка как таковая. Как правило почти бессмысленно выбирать некий параметр, чтобы вычленить его из всего комплекса данных, записать на листочке, выбрать затем из всего массива результатов наилучший, и купить соответствующий сторадж. Системы хранения - это все же не видеокарточки, где достаточно взять один-два параметра на популярном бенчмарке, сравнить по ним, пойти с названием в магазин, и вот - рулез наш.

Бенчмарки дают нам повод для оценки, пищу для ума, но совсем не являются этой конечной оценкой.
Я уже приводил в качестве сравнения пример, со сравнением автомобилей по крайней цифре на спидометре (даже если эта цифра и реальна, все равно). Берем, сравниваем малолитражку, представительский класс, микроавтобус и грузовой автомобиль по максимальной скорости, или по соотношению “скорость/цена”, и выбираем лучший! :)
На деле, конечно же, микроавтобус, допустим, не хуже и не лучше грузовика или лимузина. Прсто они разные, и задачи у них разные. ?? там, где хорош один - может быть плох другой, и наоборот. На лимузине неудобно возить картошку, на микроавтобусе - покорять девчонок, на спорткаре - ездить за грибами.
Более того, даже в пределах одного класса покупатель не ориентируется только на максимальную скорость и мощность двигателя, просто потому, что в “быту” обычно важнее совсем другое. Объем багажника, удобная АКПП, климат-контроль в салоне, регулировка сидений, стоимость сервиса и потребление бензина, удобство установки детского сиденья, и так далее, такие параметры индивидуальны для каждого покупателя. ?? где-то там, глубоко среди них, есть, возможно, максимальная скорость. Для машины для города, в основном перемещаюшейся от пробки к пробке и от светофора до сфетофора, разница между 220 и 260 километрами в час максимальной скорости - штука почти умозрительная.

Ну вот, а теперь давайте вернемся к исходной теме.
Оригинальный коммент, вызвавший большую дискуссию в комментах предыдущего поста звучал так:

Борис Аклименко:
Если сравнивать FAS8040 с IBM DCS3700 по Executive Summary, то последний выглядит более привлекательно (Price Performance, Total Price, количество юнитов в стойке; при очень близких показателях SPC-1 IOPS и Ramp Phase Response Time). Хотелось бы услышать Ваши комментарии по этому сравнению.

Давайте начнем с того, что, как я уже говорил выше, бенчмарки, в данном случае, “инструмент познания результата, но не результат как таковой”. Как правило почти невозможно сравнивать его данные между разными стораджами, игнорируя все остальные показатели. По этой причине говорить о “привлекательности” странно, сторадж - не девушка, чтобы выбирать его по этой характеристике. Это инструмент решения задачи. Никто же не говорит, что молоток - более привлекателен, чем отвертка, если стоящая задача - завинтить винт (хотя молотком это сделать тоже можно, на АвтоВАЗе знают ;)

О том, как хитро поступают вендоры, чтобы получить результаты получше, можно написать целую книгу. ?? несмотря на то, что авторы бенчмарка предпринимают, конечно, усилия, чтобы подобные “маленькие хитрости” пресечь, но силы явно неравны.
Поэтому сравнивать только результаты, не глядя на то, как они получены - не является путем к истине. Также не является путем к ней сравнение очень разных стораджей.

Параметр $/IOPS конечно интересен, но сам по себе не дает нам ничего, даже если мы учтем популярную фишечку вендоров - указывать цену для его расчета - искусственно заниженной за счет “скидки”.
Например одной из лучших систем на сегодня, как по абсолютной производительности (1.2M IOPS), так и по $/IOPS (0,8$/SPC-1 IOPS) является сегодня система Kaminario K2. Знаете такую? Я вот тоже не знаю. Это такой стартап в отрасли.
Другой, долгое время державшей “топ” системой был TMS RamSAN, с ценой IOPS в районе доллара. Ну и конечно, нельзя обойти циклопические результаты стораджей Huawei OceanStor. Последний, к слову, не all-flash, как перечисленные выше, а вполне “дисковый”.

?? что теперь, многие покупатели посмотрели на результаты, да ну этот EMC (вообще не публикующий никаких результатов бенчмарков), HP, IBM, Hitachi! Купим-ка мы лучше вот этот Каминарио! Смотри-ка, какой он крутой! ??ли вот еще лучше - Хуавей!

Я с уважением отношусь ко всем перечисленным вендорам, и их работе, но все же, положа руку на сердце, согласимся, что так не поступает никто. Максимум - ознакомятся с результатами, и сделают свой выбор на основании… чего?
Мне кажется, что функциональности, это прежде всего.

Теперь же, если мы вернемся к сравнению NetApp FAS8040 2-node cluster, и IBM DCS3700 (AKA тот же NetApp E5660, к слову), то, посмотрев с этой точки зрения, а не с точки зрения “максимальной цифры на спидометре”, мы увидим, что это разные системы, для разных задач.

?? точно также, как никто не ставит all-flash storage, при всех их великолепных результатах $/IOPS на, допустим, хранение почты в Exchange, как никто не покупает (личную) “Газель”, ездить на ней на работу, также и в этом случае. Задачи - разные. Системы - разные. Скорость - не единственный параметр для системы хранения, выполняющей свою задачу в IT-подразделении компании.

Борис Аклименко:
Выходит очень странно - систему рассчитанную на большие конфигурации показывают чуть ли не в самом минимальном варианте

Это так, потому что пользователям, как правило, в подавляющем случае, интересны не столько результаты “звездолетов” на 1960 дисков, или all-flash системы сверхвысокой производительности. Обычно такой бизнес и без бенчмарков хорошо знает, что покупать, так как такие потребности в производительности не возникают на пустом месте одномоментно. Также, как покупатели Феррари не тусуются перед покупкой на форумах auto.ru, расспрашивая тамошних завсегдатаев ;)
Поэтому чаще всего интересны и покупаемы совсем не “топовые” конфигурации систем, напротив, большинстов продаж делают low-enterprise и midrange, в совсем не заоблачных конфигурациях. Не весь бизнес в России еще Газпром. :) Да и не в России - тоже.

Борис Аклименко:
а толку от этого “добавить” - если вы показываете результаты для нетапповского HighEnd и предлагаете “экстраполировать” его на Mid-Range?

Толк есть, и он состоит в том, что у NetApp, в отличие от многих других вендоров, вся продуктовая линейка есть, по сути одна платформа, отличающаяся только объемом памяти и типом-(ядерностью) процессоров. Поэтому вполне можно рассматривать результаты одной модели линейки, экстраполируя ее результаты на другую модель. Платформа-то и OS не отличаются, отчего бы меняться характеристикам масштабируемости производительности у разных ее моделей? У вас есть объективные основания так думать? Покажите их. Пока же предлагаю оставаться в рамках фактов и материализма.

Борис Аклименко:
Мы писали вендору с предложением показать производительность всей системы, с условием того, что если заказчика это устроит - заказчик приобретет половину этой конфигурации и будет, не опасаясь “сюрпризов” расти до полной. NetApp этот запрос не заинтересовал, но заинтересовал HP и EMC. Как-то так.

Вообще-то ничего удивительного. NetApp вообще крайне неохотно участвует в “тараканьих бегах”. Причины этому я описал в первой половине поста сверху. На практике “соревнование в скорости” у кастомера дело азартное, но по результатам бессмысленное. Счас скажу секретную штуку. На самом деле NetApp продает не IOPS-ы. Не диски, и не перформанс. Он продает фичи. А уж потом, довеском к фичам, идет скорость, диски, перформансы и прочее. На практике оказывается, что когда вы купите фичи, нужные вам, перформанс и емкость вы при этом тоже получите :)
Отсюда понятно отсутствие интереса. Это не пренебрежение вами. Это просто лучшее понимание вопроса :)

Борис Аклименко:
Для NetApp информации по “живым” 200000 ящикам инфы не нашел даже для 6240, не то что для 32xx.

Я ж вроде это постил в PS в пред-предшествующем посте:
http://www.netapp.com/us/media/tr-4268.pdf
Technical Report
200,000 Exchange Server 2013 Mailboxes on NetApp FAS8060
An Overview of Performance and Scalability
Wei Liu, NetApp
February 2014 | TR-4268

Там же, кстати, можно посмотреть результаты масштабирования кластера.

Еще по теме:
Про “культ бенчмарков”
Почем обходится производительность?
Про тестирования и про производительности
О “цене за гигабайт” и о “цене за решение”
Правильная интерпретация $/IOPS и IOPS/RAID для результатов SPC-1
Несколько слов про параметр $/IOPS в SPC-1

Это далеко не все, что я на тему “бенчмаркетинга” в отрасли писал, скорее наиболее “свежее”, и по количеству и объему вы видите, что тема “навязла”, и простите меня за то, что я без особенного энтузиазма встретил попытку развязать очередную дискуссию в комментах на эту тему.
Надеюсь, мне удалось пояснить свою позицию по этому вопросу, если же нет - велком снова в комменты. ?? спасибо за то, что дали мне высказаться, сохранив культурную дискуссию. Я тут просто в дороге, и не могу отвечать быстро.

Комментарии (5)

  1. Борис Аклименко:

    Спасибо за развернутый ответ. Тоже кратко:
    >Бенчмарки дают нам повод для оценки, пищу для ума, но совсем не являются этой конечной оценкой.
    Словами EMC из вашего блога “только ваше приложение с вашими данными на вашем сторадже может показать по-настоящему реальные результаты” )

    >Параметр $/IOPS конечно интересен, но сам по себе не дает нам ничего, даже если мы учтем популярную фишечку вендоров - указывать цену для его расчета - искусственно заниженной за счет “скидки”.
    Какой поразительно несравнимый с величиной затрат результат!
    Вы много раз писали о том, что параметр $/IOPS не показывает абсолютно ничего, но в тоже время в статье “Что HP думает о NetApp, и как все обстоит на самом деле. Часть 1″ сами пишете: “Заплатить в три с половиной раза больше денег и получить всего в 1,8 раза выше производительность, при существенно (примерно втрое) худших показателях latency!”

    >Толк есть, и он состоит в том, что у NetApp, в отличие от многих других вендоров, вся продуктовая линейка есть, по сути одна платформа, отличающаяся только объемом памяти и типом-(ядерностью) процессоров.
    Только вот по количеству SAS-шин эта линейка не совсем идентична. Поэтому и интересно как поведут себя не самые старшие модели на пределе количества шпинделей.

    >Я ж вроде это постил в PS в пред-предшествующем посте… …Там же, кстати, можно посмотреть результаты масштабирования кластера.
    Хорошая бумага, но снова про старшую линейку. ?? хоть мой пример был адресован не вам, но опять-же под “живыми” ящиками я имел ввиду не синтетический Jetstress в лаборатории, а именно подтвержденный продакшн.

    >Надеюсь, мне удалось пояснить свою позицию по этому вопросу, если же нет - велком снова в комменты.
    Позиция ясна. Такую бы позицию некоторым пресейлам с SPC-флагами в руках )

    P.S.: Хорошей дороги!

  2. Борис Аклименко:

    > Словами EMC из вашего блога “только ваше приложение с вашими данными на вашем сторадже может показать по-настоящему реальные результаты” )

    Это не только слова EMC, NetApp говорит то же самое, именно поэтому он так последовательно продвигает идею демопулов у партнеров, и продажу через “триал” и пилот-проекты.
    Действительно, ничто не аргументирует лучше, чем “живая” система.
    Я понимаю, хотя и не разделяю позицию EMC, запрещающую публикации бенчмарков и результатов тестов (даже кастомерами, к слову сказать), причина тут именно в этом. Единственно полноценный “бенчмарк”, применимый для клиента - реальная система с реальными данными в реальном же рабочем “энвайронменте” этого клиента.
    EMC можно упрекать во многом, но только не в умении продавать. :)

    > Вы много раз писали о том, что параметр $/IOPS не показывает абсолютно ничего, но в тоже время в статье “Что HP думает о NetApp, и как все обстоит на самом деле. Часть 1″ сами пишете:

    Поправлю, не “не показывает абсолютно ничего”, а “не показывает сам по себе”, в отрыве от прочих данных, это важно. ??менно поэтому я и пишу: “если смотрите на результат - понимайте то, как он получен. Не сравнивайте метры с футами!”
    В случае HP я, разумеется, “нормализовал” приведенные цены по уровню листпрайса, чтобы их можно было сравнивать.

    > Поэтому и интересно как поведут себя не самые старшие модели на пределе количества шпинделей

    Для 90-95% кастомеров это (ситуация с пределом количества шпинделей) - ситуация, интересная лишь теоретически. Мой опыт показывает, что система хранения в реальной задаче начинает упираться во что-то куда задолго до подхода к лимиту по шпинделям. Я лично вообще не видел систему, которая бы работала над чем-то реальным хотя бы существенно приблизившись к этому лимиту.

    > опять-же под “живыми” ящиками я имел ввиду не синтетический Jetstress в лаборатории, а именно подтвержденный продакшн.

    М-м-м… Знаете, в мире компаний, которым нужна почтовая система на 200 тысяч ящиков в Exchange, их, как бы и вот не на пальцах двух рук можно посчитать. Я вот, отвечая, пробежался по данным из википедии компаний из топа списка Fortune: Exxon, Chevron, BP, Shell - 80-90 тысяч сотрудников каждая, включая понятно “линейных” нефтянников на вышках. Ну там есть Wal-Mart конечно, с 2,1 миллиона, куда входят продавцы, логисты и грузчики моллов, не нуждающихся в корпоративной почте.
    Ближе всего к этой цифре подходят крупные финансовые корпорации, типа JP Morgan Chase (чуть более 250 тысяч), и аудиторы, типа PwC и KPMG (в районе 160-180 тысяч). Так что не думаю, что спрос на “продакшн” для такой системы достаточно велик, чтобы демонстрировать “подтвержденный продакшн” вот прям вот.
    200 тысяч ящиков В ОДНОЙ С??СТЕМЕ это вот РЕАЛЬНО дофига-дофига. :)

    > Такую бы позицию некоторым пресейлам с SPC-флагами в руках

    С грустью вынужден констатировать, что пресейлов, как и отрасль вообще, косит эпидемия некомпетентности, я уже про это несколько ранее упоминал :(
    Когда пресейлы приходят из вчерашних сисадминов-эникеев, они притаскивают с собой любимые методы споров и игрушки

  3. Minus:

    Роман, хочу добавить буквально одну копейку - я знаком с ситуацией, когда один вендор (не буду говорить какой, но имеющий у себя и прекрасный хай-энд, и хороший мид-рендж) сознательно не показывает супер-пупер огромные цифры IOPS в тестах SPC-1, больше ориентируясь на то, чтобы показать стабильное (читай не увеличивающееся радикально при возрастании нагрузки) latency.

  4. Борис Аклименко:

    >Для 90-95% кастомеров это (ситуация с пределом количества шпинделей) - ситуация…
    Эта ситуация становится все более актуальной, так как SSD уже далеко не диковинка во многих серверных.

    >В случае HP я, разумеется, “нормализовал” приведенные цены по уровню листпрайса
    Листпрайс - это вообще “сферические попугаи”, не вам ли это знать. Сам знаю пару вендоров, у которых базовая скидка в одном случае 70, в другом 85% )

    >М-м-м… Знаете, в мире компаний, которым нужна почтовая система на 200 тысяч ящиков в Exchange…
    Вы немного не в ту сторону смотрите. Обратите внимание на провайдеров Hosted Exchange, например http://www.intermedia.net/ (хотя им сейчас очень туго будет тягаться с Office365, но это уже другой разговор)

    >С грустью вынужден констатировать, что пресейлов, как и отрасль вообще, косит эпидемия некомпетентности, я уже про это несколько ранее упоминал :(
    По моему мнению сама отрасль “слегка” раздута, отсюда и ноги.

  5. >>Для 90-95% кастомеров это (ситуация с пределом количества шпинделей) - ситуация…
    >Эта ситуация становится все более актуальной, так как SSD уже далеко не диковинка во многих серверных.

    Хмм, напротив, спорно. Контроллеры начинают упираться во внутреннюю производительность, ширину шины, а хосты - в толщину канала куда раньше, чем до того, с механическими дисками, которых для того же нужно было бы куда больше, чем теперь SSD.

    > Листпрайс - это вообще “сферические попугаи”, не вам ли это знать.

    Тем не менее, это единственная “твердая”, установленная цена. То что по ней никто не торгует не значит, что она взята “с потолка”. А если уж конкурент вворачивает в смету “45% скидки”, то почему того же не может сделать конкурент? Таким образом масштаб все равно сравняется.

Оставить комментарий