Hybrid flash storage
Featuring flash, SAN and NAS, resource pool, and multi-DC convergence, combined with million-level IOPS and millisecond latency, OceanStor Hybrid Flash Storage easily handles the demanding performance and reliability requirements of enterprises’ mission-critical services.
Oceanstor os
Функционал СХД контроллеров Huawei основывается на OceanStor OS – закрытой модульной Unix like ОС Huawei. В целом функционал сильно схож с RAID-контроллерами, но добавлен ряд фич.
Есть базовый функционал (Basic function control software) и есть функционал дополнительный (Value-added function control software), который докупается в виде лицензионных ключей. В ПО СХД ОС заложено много инструментов по backup/monitoring/восстановлению данных на ЖД (ЖД самый частый сбойный компонент СХД т.к. это элемент с механической компонентой).
Архитектура OceanStor OS
Raid 2.0
RAID 2.0 – программный RAID на основе ОС СХД Huawei (OceanStor OS), появился в 2021 году. Работает на всех актуальных СХД Huawei. На серверах Huawei RAID2.0 функционала нет т.к. они реализуются на аппаратных RAID-картах не Huawei (напр. LSI SAS 3108). Презентация RAID2.0 .
Принцип создания LUN в технологии RAID 2.0 (тут на английском основные определения):
Преимущества RAID 2.0 (помимо описанного выше функционала Huawei СХД, который работает в связке с RAID 2.0 ):
* все диски находятся в одном дисковом домене (грубо говоря, одном RAID), а не пачке разных RAID под разные задачи. Нарубление LUN по большому количеству ЖД (вместо выделенных), позволяет параллельно запрашивать данные сразу с большого количества ЖД (вместо выделенных), ускоряя тем самым работу и плавно распределяя нагрузку на все ЖД (не унося в полку одни, приводя в том числе к повышенному их износу, при том что другие ЖД мало нагружены).
* нет выделенного диска горячей замены. Пространство под горячую замену равномерно распределено на всех дисках. Подход использования пространства всех ЖД под диски горячей замены позволяет значительно (в разы) ускорить восстановление при сбое (данные пишутся не с большого количества ЖД на один, а с большого количества ЖД на эти же ЖД).
При восстановлении считываются только конкретные chunk (не на всех ЖД есть данные, которые затрагивают упавший ЖД) и с бОльшего количества дисков параллельно, чем в традиционных RAID, которые обычно имеют меньше дисков, чем 2.0 . В тестах Huawei 1TB диск в RAID 5 восстанавливался порядка 8-10 часов, а RAID 2.0 30 мин.
* не нужно следить за наличием дисков горячей замены – пространство под горячую замену распределено между всеми дисками.
Аналоги RAID 2.0 у других вендоров.
Summary
Вопросы
все вопросы/ответы по теме тут
Автоматическое уменьшение thin lun-ов
Еще одна интересная технология — SmartThin Data Shrinking, оптимизация места, занимаемого LUN-ами. В общем-то, это развитие принципа Thin Provision для логических томов, с той лишь разницей, что контроллер СХД автоматически определяет нулевые блоки данных и исключает их из логического диска.
Как видно на скриншотах, даже после опустошения содержимого LUN-а, на дисковом пространстве он занимает всего 10% от своего максимального объема. Если вспомнить, что традиционные LUN-ы типа Thin Provision даже после удаления своего содержимого имеют свойство разрастаться до максимально заданного объема, результат Huawei OceanStor 2200 V3 впечатляет, ведь единожды «раздув» логический диск, а затем удалив с него лишнюю информацию, вам не нужно пересоздавать LUN заново, чтобы освободить место на СХД.
Вертикальное масштабирование
К головному устройству OceanStor 2200 V3 можно подключать до 13 дисковых полок по интерфейсу SAS 12 Gbps, для чего на каждом контроллере установлены по два порта MiniSAS HD. Поддерживаются 24-дисковые LFF модули расширения высотой 4U и 25-дисковые SFF полки высотой 2U.
Горизонтальное масштабирование в серии OceanStor 2200 V3 недоступно, и максимум, на что вы можете рассчитывать — это на установку дублирующих СХД, между которыми будет настроено зеркалирование логических томов или репликация данных, в том числе в реальном времени.
Гибридные флеш-системы хранения данных серии oceanstor — huawei enterprise
Доступность на уровне 99,9999% отвечает постоянно растущим требованиям к обслуживанию
• Конвергенция флеш-систем: взаимосвязь различных типов, уровней и поколений флеш-систем хранения
• Конвергенция сети хранения данных (SAN) и сетевых хранилищ (NAS): поддержка нескольких видов рабочих нагрузок с лучшими в отрасли производительностью и функциями
• Конвергенция пула ресурсов хранения: объединение ресурсов и унифицированное управление разнородными системами хранения с автоматизацией и оркестровкой сервисов
• Конвергенция нескольких центров обработки данных (DC): бесшлюзовой механизм резервирования «активный-активный» для SAN и NAS, позволяющий легко перейти на схему 3ЦОД
Конструкция oceanstor 2200 v3
Конструктивно, Huawei OceanStor 2200 V3 выполнен по традиционной для SAN-устройств двухконтроллерной схеме active-active с полным дублированием компонентов. Шасси могут иметь как 12 отсеков для 3.5-дюймовых носителей, так и 25 отсеков для 2.5-дюймовых дисков или SSD.
На этапе конфигурации стоит учитывать, что для OceanStor 2200 V3 нет 3.5″ SAS винчестеров со скоростью вращения шпинделя 10 и 15 тысяч оборотов в минуту — эти диски доступны только в 2.5-дюймовом формате, так что если головное устройство имеет 3.5″ отсеки, для скоростных SAS дисков придется покупать SFF полку расширения. Что же до SSD, то они доступны в обоих форматах с одинаковым объемом.
По умолчанию, OceanStor 2200 V3 поставляется с двумя контроллерами, имеющими по 1 активному слоту для модулей хост-адаптеров с интерфейсом PCI Express 4x 3.0. Сам контроллер имеет на борту 4 порта 1Gbps Ethernet с поддержкой агрегации каналов, что само по себе уже дает неплохую скорость канала «наружу», и позволяет вообще отказаться от дополнительных интерфейсов, если производительность не критична.
Монтируемые снэпшоты
Сегодня функции мгновенных снимков (Snapshot) есть у всех производителей СХД, и можно было бы не заострять внимание на технологии Hypersnap, если бы не одно отличие. В OceanStor 2200 V3 каждый мгновенный снимок вы можете смонтировать, как полноценный LUN, не затрагивая исходные данные.
Это очень удобно при разработках форков действующего приложения. Ну допустим, вы хотите сделать доработку какого-то софта: создайте один, а лучше два снэпшота, подключите один снимок как LUN и работайте внутри него, как если бы вы работали с исходными данными на логическом диске. Все ваши изменения внутри snapshot-а не будут затрагивать другие мгновенные снимки или оригинальный LUN.
Когда задача выполнена — просто удалите ненужный снэпшот или откатите его в оригинальный LUN, чтобы сделать ваш форк основным источником данных для обновленного приложения.
Три перечисленные выше функции — это пример того, как софт просто меняет наше представление о возможностях системы хранения данных. Каюсь, они настолько меня впечатлили, что я нарушил обычный порядок подготовки обзора и поставил результаты некоторых тестов выше описания аппаратной части устройства, и теперь самое время исправить содеянное и посмотреть, что же представляет собой OceanStor 2200 V3 «в железе».
Пакеты расширенной гарантии
Стандартная гарантия на устройство составляет 3 года, этот срок можно продлевать покупкой соответствующих сервисных пакетов до 30 июня 2025 года (дата End of Support для данной модели). Так же вы можете воспользоваться пакетами расширнного гарантийного обслуживания:
- 9х5 Next Business Day с выездом на место установки
- 24x7x4H с выездом на место установки
- 24х7х2H с выездом на место установки
Обслуживание осуществляется силами авторизованных сервисных центров и филиалов компании.
Паттерны real world задач
От синтетических тестов перейдем к эмуляции реальных задач. Тестовый пакет VDbench позволяет запускать паттерны, снятые программами I/O трейсинга с реальных задач. Грубо говоря, специальный софт записывает, каким образом приложение, будь то база данных или еще что-либо, работают с файловой системой: процент записи и чтения с разным сочетанием случайных и последовательных операций и разным размером блока записи и чтения.
Мы использовали паттерны, снятые специалистами компании Pure Storage для четырех кейсов: VSI (Virtual Storage Infrastructure), VDI (Virtual Desktop Infrastructure), SQL и Oracle Database. Тест проводился при 16 тредах для каждой виртуальной машины, что создавало глубину запросов примерно равной 64.
От виртуальных приложений переходим к базам данных
Жесткие диски типа NL-SAS, конечно, не предназначены для баз данных и виртуальных приложений, и Huawei OceanStor 2200 V3 в нашей конфигурации можно использовать для баз данных, если нагрузка на дисковую систему составляет примерно 800 IOPS, дальше сильно растет задержка.
Решение резервного копирования
Решения резервного копирования Huawei обеспечивают централизованное и универсальное резервное копирование и поддерживают резервное копирование приложений баз данных, файловых систем, виртуальных машин, систем больших данных и электронной почты. Для ускорения цифровой трансформации предприятий эти решения оптимизируют резервное копирование данных, снижают совокупную стоимость владения и упрощают использование данных.
Тестирование
В нашей конфигурации с NL-SAS дисками, Huawei OceanStor 2200 V3 не претендует на звание чемпиона по производительности, так что заранее делаем поправку на отсутствие SSD кэша и более-менее быстрых магнитных носителей.
Для тестирования мы использовали тестовый стенд следующей конфигурации:
- Сервер 2
- IBM System x3550
- 2 x Xeon X5450
- 20 GB RAM
- VMWare ESXi 6.0
- RAID 1 2x SAS 146 Gb 15K RPM HDD
- Mellanox ConnectX-2
- Система хранения
- Huawei OceanStor 2200 V3:
- 16 GB RAM
- 2 x SmartIO 4 SFP FC 16 Gbps / ETH 10 Gbps
- 12x HDD NL-SAS 7200 RPM 2 Tb
- RAID 5
- Софт
- Debian 9 Stretch
- Без патчей Intel Meltdown/Spectre
- Бенчмарк VDBench 5.04.6
Технологии
Тут описаны технологии, которые не рассмотрены в RAID-контроллерах
Cache mirroring
Cache mirroring используется при наличии нескольких контроллеров в СХД (у Huawei всегда несколько контроллеров, минимум 2). Данные между контроллерами по шине синхронизации синхронизируются для целостности данных в случае отказа одного из контроллеров. Cache mirroring делается всех типов операций – read/write/mirror. Причем главным считается write.
Multipathing
Multipathing – поддержка нескольких аплинк каналов от СХД до серверов. Нет зависимости от канала/промежуточного коммутатора. Особенность технологии еще и в том , что можно сделать так, чтобы для сервера оба канала виделись как один ЖД (LUN), а не по одному LUN на каждый канал.
Data coffer
На случай полного фатала с питанием (выход из строя двух БП/обоих лучей питания) в controller enclosure встроен функционал сохранения данных RAID кэша. Реализуется не через BBU ОЗУ или суперконденсаторы flash, как на RAID-контроллерах серверов (и на старших моделях СХД), а используя батареи (батарейные блоки BBU) служебное пространство 4 дисков.
При проблеме с питанием данные из кеша контроллера переносятся на специальные разделы coffer disk’ов (раздел равен кешу контроллера, 4 диска – 2х2 диска в RAID1). Остальная часть дисков, не отведенная под раздел coffer, используется стандартно. После включения контроллер выгружает данные из coffer куда нужно.
LUN copy
Копирование LUN. Требует запрет на запись (не на чтение) в данный LUN для корректного снятия копии в определенный момент времени.
HyperClone (LUN clone) и Synchronization
Мгновенное копирование LUN используя синхронизацию (synchronization) между LUN. Не требует запрета на чтение, но занимает весь объем, отведенный под LUN, а не только объем данных LUN.
Синхронизация может происходить как между основным и резервным LUN, так и обратно. Для восстановление данных используется обратная синхронизация с клонированного LUN на основной (reverse synchronization). После синхронизации происходит обрыв синхронизации (split)
HyperSnap (Snapshot)
Позволяет снять копию системы (определенного LUN) в определенный момент времени. Есть у всех вендоров СХД. У Huawei основан на технологии copy-on-write (еще популярен у вендоров allocated-on-write).
- Для снятия snapshot не требуется остановка системы, в отличии от LUN copy.
- Snapshot занимает только пространство отведенное под ненулевые данные LUN, а не весь объем, отведенный под LUN, как это делает Clone.
В СХД типа OceanStor 9000 snapshot может быть сделан за одну секунду без влияния на сервис. Подробнее зачем нужны snapshot/replication см. в статье backup.
Существует два варианта восстановления из snapshot:
- side-by-side recovery: создается сопоставление snapshot LUN для хоста, который “видит” оригинальный LUN. В результате конкретные данные могут быть скопированы на уровне ОС.
- rollback function: оригинальный LUN (и все его данные) просто подменяется snapshot LUN.
HyperReplication (Remote Replication)
Репликация данных с одного СХД на другой. Требует несколько одновременно работающих СХД в отличии от LUN copy/snapshot, которые могут быть сохранены на том же СХД. Репликация может быть синхронная или асинхронная (с задержкой), в зависимости от ширины канала и задержки:
- Синхронная репликация – при записи хоста на основной СХД хост не получит подтверждение успешности записи пока основной СХД не получит подтверждение от СХД, с которым происходит репликация.
- Асинхронная репликация – основной СХД сразу отвечает хосту, а уже на фоне просто делается snapshot и далее данные передаются на второй СХД.
В настройках обычно можно задавать максимальную полосу канала, выделяемую под репликацию. Кроме того реплики могут быть полными или инкрементальными.
Могут быть разные варианты реализации репликации между СХД: один к одному/ко многим или двухсторонние реплики. Подробнее зачем нужны snapshot/replication см. в статье backup.
Квоты
Квоты позволяют сделать ограничение для определенных пользователей по объему выделяемого им пространства. Зачастую поддерживается интеграция с NIS/LDAP/AD (слайд для СХД OceanStor 9000).
WORM
WORM – write once read many. Система блокирует после создания файла его изменение и удаление. Таким образом обеспечивается неизменяемость информации (отчеты сотрудников, правовая или медицинская информация). Через определенный период, заданный админом, файл можно удалить или повторно заблокировать, но изменить нельзя.
QoS
Аналогия QoS в IP-сетях, вместо пакетов используются I/O requests. Можно в системе настраивать приоритетность обработки тех или иных запросов на чтение/запись на определенный LUN. В зависимости от приоритета формируются очереди.
Дедупликация
В СХД может быть реализован функционал глобальной дедупликации данных (защиты от дублирования) путем сравнения файлов или объектов между собой (OceanStor 9000). Подробнее о дедупликации см. в отдельной статье.
HyperThin/SmartThin
Thin LUN – динамический LUN, который автоматически расширяется при заполнении. ОС видит такой LUN как обычный Thick LUN, но по факту контроллер предоставляет меньше объема, чем размер LUN и автоматически расширяет его при потребности ОС.
Пространство без данных можно использовать для другого LUN. В результате пространство используется эффективнее, но в случае полной забивки динамического LUN может произойти коллапс. При создании Thin LUN отжирает 64МБ под свои задачи и по мере появления данных в Thin LUN потребует еще служебного пространства, помимо основных данных.
SmartTier
У вендоров может быть реализована поддержка разных типов дисков (SSD, SAS, NL-SAS). В результате разные по типу диски могут стоять в одной полке. В случае Huawei технология называется SmartTier и поддерживается на RAID 2.0 и СХД OceanStor 9000 (тут она InfoTier). Для работы SmarTier на Disk Domain нужно чтобы в нем были диски разных типов (не обязательно три типа, можно и два).
SmartTier на основе технологии dynamic storage tiering (DST) определяет, какие данные более востребованы и переносит их на SSD (high-perfomance tier), менее же востребованные же переносит на HDD (perfomance tier: SAS, capacity tier: NL-SAS). Происходит это в три этапа:
- Анализ входящих/исходящих операций (i/o monitoring)
- Анализ возможностей размещения данных (data placement analysis)
- Перемещение данных (data relocation)
Перемещение происходит в ненагружанные часы (можно задать вручную или использовать автоматический выбор на основе i/o), потому что потребляет ресурсы СХД . Определенные файлы можно закрепить за каким то уровнем. По умолчанию функционал выключен, даже если лицензия куплена – нужно задавать настройки политик перемещения для определенного LUN (automatic, highest, lowest, no relocation).
Специфические утилиты восстановления
Могут быть реализованы специфические утилиты восстановления данных, например, функционал по восстановлению видео (в OceanStor 9000). Как говорит автор до такого лучше не доводить – лучше следить за состоянием RAID/ЖД в нем, делать snapshot и прочее.
Экономическая эффективность
Начинаем считать деньги с того, что измеряем энергопотребление собранной СХД в режиме простоя и под нагрузкой.
Энергопотребление меняется очень слабо, что характерно для машины с большим количеством жестких дисков. Так же нельзя сказать, что Huawei OceanStor 2200 V3 хоть как-то ощутимо нагревается — система охлаждения в течение всего теста работает на минимальной скорости — отлично!
Выводы
Huawei OceanStor 2200 V3 — это пример того, как за относительно малые деньги можно приобрести очень функциональную СХД для SAN-приложений. Пожалуй, самый главный плюс данной модели — это технология RAID 2.0 , благодаря которой можно спать спокойно, когда из RAID 5 массива вылетает один жесткий диск:
через 40 минут массив будет в состоянии Healthy, а если свободное место позволяет, можно неспешно ждать новый диск из гарантийного ремонта, не опасаясь за сохранность данных. Такое отказоустойчивое решение, которое на уровне железа дублирует все компоненты, а на уровне софта решает многолетние проблемы RAID-массивов идеально вписывается в концепцию файлового архива или СХД для разработчиков программного обеспечения.
Поскольку это все же начальный уровень, и цена здесь имеет большое значение, для хранения резервных копий OceanStor 2200 V3 можно использовать даже без хост-адаптеров: восьми гигабитных ETH портов хватит для резервирования по iSCSI целого небольшого офиса.
Конечно, в начальном ценовом сегменте не обойтись без недостатков, и к ним я могу причислить отсутствие горизонтального масштабирования, поддержки файлового доступа в 16-гигабайтной версии и неадекватно дорогую лицензию за репликацию и клонирование LUN-ов, ведь эти функции, как правило, бесплатные даже в более дешевых устройствах.
К счастью, без репликации и клонирования LUN-ов можно обойтись или при необходимости, возложить эти задачи на какой-нибудь виртуальный сервер с установленным Rsync. А на сэкономленные деньги лучше приобрести пакет расширенной гарантии, ведь далеко не каждой системе хранения данных стоимостью в 400 тысяч рублей можно обеспечить официальный сервис с круглосуточным выездом специалиста в ЦОД.
Для многих государственных предприятий расширенная гарантия — это не только личное спокойствие начальника IT-отдела, но и прекрасный способ ограничить предложение аналогов при закупке оборудования на торгах, и видимо компании Huawei это хорошо известно.
Михаил Дегтярёв (aka LIKE OFF)
