Huawei OceanStor Dorado 18000; Huawei Enterprise

ss main Новости

40 лет развития распределённых схд

Первые сетевые хранилища в привычном нам виде появились в 1980-х. Многие из вас сталкивались с NFS (Network File System), AFS (Andrew File System) или Coda. Спустя десятилетие мода и технологии изменились, а распределённые файловые системы уступили место кластерным СХД на основе GPFS (General Parallel File System)

, CFS (Clustered File Systems) и StorNext. В качестве базиса использовались блочные хранилища классической архитектуры, поверх которых с помощью программного слоя создавалась единая файловая система. Эти и подобные решения до сих пор применяются, занимают свою нишу и вполне востребованы.

На рубеже тысячелетий парадигма распределённых хранилищ несколько поменялась, и на лидирующие позиции вышли системы с архитектурой SN (Shared-Nothing). Произошёл переход от кластерного хранения к хранению на отдельных узлах, в качестве которых, как правило, выступали классические серверы с обеспечивающим надёжное хранение ПО; на таких принципах построены, скажем, HDFS (Hadoop Distributed File System) и GFS (Global File System).

Ближе к 2021-м заложенные в основу распределённых систем хранения концепции всё чаще стали находить отражение в полноценных коммерческих продуктах, таких как VMware vSAN, Dell EMC Isilon и наша Huawei OceanStor. За упомянутыми платформами стоит уже не сообщество энтузиастов, а конкретные вендоры, которые отвечают за функциональность, поддержку, сервисное обслуживание продукта и гарантируют его дальнейшее развитие. Такие решения наиболее востребованы в нескольких сферах.

Краеугольная для всей линейки OceanStor Dorado технология — FlashLink. Точнее, это термин, объединяющий интегральный набор технологий, которые служат для обеспечения высоких производительности и надёжности. Сюда входят технологии дедупликации и компрессии, функционирования системы распределения данных RAID 2.

Помимо всего прочего, FlashLink включает в себя две важные составляющие — Wear Leveling и Global Garbage Collection. На них стоит остановиться отдельно.

Фактически любой твердотельный накопитель — это СХД в миниатюре, с большим числом блоков и контроллером, который обеспечивает доступность данных. А обеспечивается она в том числе за счёт того, что данные с «убитых» ячеек перебрасываются в «не убитые».

Тем самым гарантируется, что их удастся прочитать. Существуют различные алгоритмы такого переноса. В общем случае контроллер старается отбалансировать износ всех ячеек накопителя. У такого подхода есть минус. Когда внутри SSD происходит перемещение данных, число осуществляемых им операций ввода-вывода разительно сокращается. На текущий момент это неизбежное зло.

Таким образом, если в системе много твердотельных накопителей, на графике её производительности вырисовывается «пила», с резкими подъёмами и спадами. Беда в том, что какой-то один накопитель из пула может запустить миграцию данных в любой момент, а общий performance снимается единовременно со всех SSD в массиве. Но инженеры Huawei придумали, как избежать возникновения «пилы».

Благо и контроллеры в накопителях, и контроллер хранилища, и микрокод у Huawei «родные», эти процессы в OceanStor Dorado 18000 V6 запускаются централизованно, синхронно на всех накопителях массива. Причём по команде контроллера СХД и именно тогда, когда нет большой нагрузки по вводу-выводу.

Чип искусственного интеллекта также участвует в выборе правильного момента для переноса данных: на базе статистики обращений за предыдущие несколько месяцев он с высочайшей вероятностью способен спрогнозировать, ожидать ли в ближайшее время активного ввода-вывода, и если ответ отрицательный, а нагрузка на систему на текущий момент невелика, то контроллер командует всем накопителям: кому требуется Wear Leveling, произвести его разом и синхронно.

Плюс ко всему контроллер системы видит, что творится в каждой ячейке накопителя, в отличие от СХД конкурирующих производителей: те вынуждены закупать твердотельные носители у сторонних вендоров, ввиду чего cell-level детализация контроллерам таких хранилищ недоступна.

Как следствие, у OceanStor Dorado 18000 V6 очень короткий период потери производительности на операции Wear Leveling, а выполняется она, в основном когда никаким другим процессам не мешает. Это даёт высокую стабильную производительность на постоянной основе.

Hardware архитектура

На СХД контроллерах Huawei используются Xeon E5/7. На младших моделях контроллеры однопроцессорные, на старых – двух. Все компоненты обоих enclosure (по сути всего СХД) дублируются и меняются на горячую для отказоустойчивости – power module PSU (4 в 6800, 2 2), BBU, FAN, management, interface module.

Всегда есть и резервирование самого контроллера – в старшей модели (6800) 4 контроллера, во всех остальных по два (в одном controller enclosure два контроллера – см. ниже). Работают обычно active-active в режиме balancing, но можно и сделать active-passive. Между контроллерами постоянно идет cache mirroring.

Архитектура многопроцессорного (на примере OceanStor 6800): два процессора со связью по QPI, DDR3, PCI свичи как промежуточные модули между CPU и интерфейсными модулями.

Контроллерная полка

Контроллер с закрытой крышкой (скрины только младшей модели)

Красным обведены два контроллера в одном enclosure. Во всех контроллерах есть поддержка SAS/SATA/NL SAS/SSD. К контроллеру можно подключать дополнительные дисковые полки – сзади контроллера есть SAS/Fibre channel/карты расширения (можно поменять карту на другу технологию FC/iSCSI или плотность – 1G/10G).

В Smart I/O порты (есть на всех моделях кроме 5300) можно вставить Ethernet через SFP или Fibre channel через SFP-fiber channel, хотя обычно модули FC несъемные, а тут по сути мультитаскинг (поддерживаются, судя по доке: 8/16 Gbit/s Fibre Channel, 10 Gbit/s Ethernet, 10 Gbit/s FCoE).

Для Huawei OceanStor v3 до 8 контроллеров могут работать в одном кластере, разделяя нагрузку по CPU/cache. Подключение при этом происходит используя Smart I/O порты друг к другу напрямую или через FC коммутатор. По сравнению с v2 так же обновлен CPU и кеш.

С открытой крышкой спереди/сзади

В блоки питания интегрированы батареи и фан модули. На старших моделях (начиная с 5800) питание (power module)  и батарейные блоки (BBU) разнесены есть внешние BMC на специальных management modul’ях (два) с float IP между ними (типо VRRP). В младших моделях есть дисковый модуль т.к. в младшие модели контроллеров (Huawei OceanStor 5300/5500), помимо подключения дисковых полок, внутрь контроллера можно вставить диски 3,5 (12 штук)

Компоненты полки

Дисковая полка (скрины только младшей модели)

Батарейных блоков  на дисковых полках нет, но блоков питания стандартно два. На старших моделях есть fan модули. Два Expansion модуля (два для резерва) для стекирования с контроллером. Обычно в полке только диски определенного размера можно помешать –  или 2,5 или 3,5.

Чаще всего каждый диск в дисковой полке может быть включен/отключен независимо от другого. У топовой модели дисковой полки нет возможности простой замены диска спереди т.к. количество дисков для установки огромно и все спереди поместить нереально – нужно систему опускать на салазках и сверху менять диски. Напротив проблемных ЖД будет красный индикатор. Спереди и сзади отображается ID полки для удобства.

Oceanstor 100d интеллектуальная распределенная система хранения данных — huawei enterprise

OceanStor 100D (первоначальное название FusionStorage) — это интеллектуальная распределенная система хранения данных, разработанная собственными силами Huawei с возможностями горизонтального масштабирования, которая отвечает сегодняшним и будущим запросам любого предприятия. Один кластер предоставляет приложениям верхнего уровня стандартные отраслевые интерфейсы для блочного, объектного и файлового хранения, а также интерфейсы распределённой файловой системы Hadoop (HDFS). Интерфейсы значительно упрощают операции, которые довольно сложны в изолированных хранилищах, обеспечивая непрерывную работу сервисов, эффективную обработку данных различных категорий и экономичное хранение больших объемов информации.

Хранилище HDFS предоставляет раздельную архитектуру хранения и вычисления, предназначенную для работы с большими данными. Такое хранилище позволяет конфигурировать ресурсы по требованию, уменьшает совокупную стоимость владения и гарантирует отличный пользовательский опыт. За счет поддержки совместного использования раздельной и объединенной архитектур хранения и вычисления достигается плавная эволюция. HDFS-хранилища широко используются для приложений анализа и хранения больших данных в финансовой области, операторами связи и в проектах электронного правительства и Умного города.

Объектное хранилище позволяет разместить в одной области памяти до 100 миллиардов объектов без ущерба для производительности, что сокращает количество областей памяти и изменений для крупномасштабных приложений. Автоматическое направление данных в соответствующий носитель позволяет избежать миграции данных и уменьшить пространство для хранения.

Широко используется в сценариях создания, хранения, резервного копирования и архивирования скриншотов банковских чеков, аудио- и видеозаписей, медицинских снимков, электронных документов, которыми обмениваются предприятия, а также обмена данными Интернета транспортных средств.

Raid 2.0

RAID 2.0 – программный RAID на основе ОС СХД Huawei (OceanStor OS), появился в 2021 году. Работает на всех актуальных СХД Huawei. На серверах Huawei RAID2.0 функционала нет т.к. они реализуются на аппаратных RAID-картах не Huawei (напр. LSI SAS 3108). Презентация RAID2.0 .

Принцип создания LUN в технологии RAID 2.0 (тут на английском основные определения):

Преимущества RAID 2.0 (помимо описанного выше функционала Huawei СХД, который работает в связке с RAID 2.0 ):

* все диски находятся в одном дисковом домене (грубо говоря, одном RAID), а не пачке разных RAID под разные задачи. Нарубление LUN по большому количеству ЖД (вместо выделенных), позволяет параллельно запрашивать данные сразу с большого количества ЖД (вместо выделенных), ускоряя тем самым работу и плавно распределяя нагрузку на все ЖД (не унося в полку одни, приводя в том числе к повышенному их износу, при том что другие ЖД мало нагружены).

* нет выделенного диска горячей замены. Пространство под горячую замену равномерно распределено на всех дисках. Подход использования пространства всех ЖД под диски горячей замены позволяет значительно (в разы) ускорить восстановление при сбое (данные пишутся не с большого количества ЖД на один, а с большого количества ЖД на эти же ЖД).

При восстановлении считываются только конкретные chunk (не на всех ЖД есть данные, которые затрагивают упавший ЖД) и с бОльшего количества дисков параллельно, чем в традиционных RAID, которые обычно имеют меньше дисков, чем 2.0 . В тестах Huawei 1TB диск в RAID 5 восстанавливался порядка 8-10 часов, а RAID 2.0 30 мин.

* не нужно следить за наличием дисков горячей замены – пространство под горячую замену распределено между всеми дисками.

Аналоги RAID 2.0 у других вендоров.

Summary

Вопросы

все вопросы/ответы по теме тут

Генераторы новой информации


Количество хранимой в мире информации растёт примерно на 30% в год. Это хорошие новости для поставщиков систем хранения, но что же является и будет являться основным источником этих данных?

Десять лет назад такими генераторами стали социальные сети, это потребовало создания большого количества новых алгоритмов, аппаратных решений и т. д. Сейчас выделяются три главных драйвера роста объёмов хранения. Первый — cloud computing. В настоящее время примерно 70% компаний так или иначе используют облачные сервисы.

Это могут быть электронные почтовые системы, резервные копии и другие виртуализированные сущности. Вторым драйвером становятся сети пятого поколения. Это новые скорости и новые объёмы передачи данных. По нашим прогнозам, широкое распространение 5G приведёт к падению спроса на карточки флеш-памяти.

К третьей группе причин, по которым растёт спрос на системы хранения, относятся бурное развитие искусственного интеллекта, переход на аналитику больших данных и тренд на всеобщую автоматизацию всего, чего только можно.

Особенностью «нового трафика» является его неструктурированность. Нам надо хранить эти данные, никак не определяя их формат. Он требуется лишь при последующем чтении. К примеру, банковская система скоринга для определения доступного размера кредита будет смотреть выложенные вами в соцсетях фотографии, определяя, часто ли вы бываете на море и в ресторанах, и одновременно изучать доступные ей выписки из ваших медицинских документов. Эти данные, с одной стороны, всеобъемлющи, а с другой — лишены однородности.

Массовая схд нового поколения

OceanStor Pacific отвечает требованиям надёжности на уровне «шести девяток» (99,9999%) и может использоваться для создания ЦОД класса HyperMetro. При расстоянии между двумя дата-центрами до 100 км системы демонстрируют добавочную задержку на уровне 2 мс, что позволяет строить на их основе любые катастрофоустойчивые решения, в том числе и с кворум-серверами.

Продукты новой серии демонстрируют универсальность по протоколам. Уже сейчас OceanStor 100D поддерживает блочный доступ, объектовый доступ и доступ Hadoop. В ближайшее время будет реализован и файловый доступ. Нет нужды хранить несколько копий данных, если их можно выдавать через разные протоколы.

Казалось бы, какое отношение концепция «сеть без потерь» имеет к СХД? Дело в том, что распределённые системы хранения данных строятся на основе быстрой сети, поддерживающей соответствующие алгоритмы и механизм RoCE. Дополнительно увеличить скорость сети и снизить задержки помогает поддерживаемая нашими коммутаторами система искусственного интеллекта AI Fabric. Выигрыш производительности СХД при активации AI Fabric может достигать 20%.

Что же представляет собой новый узел распределённой СХД OceanStor Pacific? Решение форм-фактора 5U включает в себя 120 накопителей и может заменить три классических узла, что даёт более чем двукратную экономию места в стойке. За счёт отказа от хранения копий КПД накопителей ощутимо возрастает (до 92%).

Мы привыкли к тому, что программно-определяемая СХД — это специальное ПО, устанавливаемое на классический сервер. Но теперь для достижения оптимальных параметров это архитектурное решение требует и специальных узлов. В его состав входят два сервера на базе ARM-процессоров, управляющие массивом трёхдюймовых накопителей.

Эти серверы мало подходят для гиперконвергентных решений. Во-первых, приложений для ARM достаточно мало, а во-вторых, трудно соблюсти баланс нагрузки. Мы предлагаем перейти к раздельному хранению: вычислительный кластер, представленный классическими или rack-серверами, функционирует отдельно, но подключается к узлам хранения OceanStor Pacific, которые также выполняют свои прямые задачи. И это себя оправдывает.

Для примера возьмём классическое решение для хранения больших данных с гиперконвергентной системой, занимающее 15 серверных стоек. Если распределить нагрузку между отдельными вычислительными серверами и узлами СХД OceanStor Pacific, отделив их друг от друга, количество необходимых стоек сократится в два раза!

Настройка

Тут про эмулятор СХД Huawei. В целом все базовые настройки можно посмотреть в удобном preview прямо в WEB контроллера, как написано в статье про эмулятор.

Выделение LUN для хоста

Последовательность базовой конфигурации : создать пул хранения (storage pool), создать LUN, создать хосты, сопоставить LUN хостам (mapping). Настройка в основном осуществляется по GUI, хотя есть возможность и CLI. Более детально (стадия port group не обязательна):

Disk domain – объединение физических дисков (можно разных типов). Для создания нужно минимум 4 диска. Для работы SmarTier на Disk Domain нужно чтобы в нем были диски разных типов (не обязательно три типа, можно и два). Как хочешь так и объединяешь – можешь на основе сервисов, можешь на основе характеристик. Создание нескольких доменов позволяет решить несколько задач:

  • Изоляция ресурсов (производительности, емкости, tiering) – LUN создается внутри Storage Pool, а Storage Pool создается внутри Disk Domain. Следовательно LUN может получать емкость/производительность из физических дисков внутри только своего Disk Domain.
  • Разделение носителей по группам на основе типа и размера – в дисковых доменах будут разные диски по стоимости и производительности.

Добавление дисков в домены – очень важная операция. “Нельзя просто так взять и..” удалить диск из домена.  Если случайно добавить не то, что нужно в работающий домен – нужно пересоздавать весь домен с предварительным удалением из него всех дисков и привязанных storage pool, LUN!!! Дич.

Storage pool – на базе Storage pool создается RAID array и  LUN в этом Storage pool наследуют от него эту защиту.

Host – создается путем создания инициатора (initiator) хоста.

Lun group – объединение LUN. Как хочешь так и объединяешь – можешь на основе сервисов, можешь на основе характеристик. Объединение нескольких LUN в группу нужно для применения общих политик для группы LUN – mappings, snapshots, replication. Применяя политику к группе она будет применена ко всем LUN в этой группе.

Port group – объединение нескольких физических портов хоста в группу. Необязательная настройка. Может использоваться для определения портов, которые будут использоваться для обмена данными с определенным LUN.

Mapping view – создает связь между LUN и host для доступа к данным LUN для определенного/ых host.

Создание разделов в ОС – перед созданием предлагается выбрать тип partition style для инициализации диска. ОС при инициализации создает на диске уникальный ID раздела (signature). После этого уже создаем разделы.

  • MBR (Master Boot Record) – старый тип и не поддерживает разделы более 2ТБ.
  • GPT (GUID Partition Table) – новый и поддерживает разделы более 2ТБ, но не поддерживается в старых версиях Windows.

Summary по логическим сущностям и настройке

Не рано ли переходить на all-flash?

Для решения задач, о которых было сказано выше, с точки зрения производительности AFA — all-flash arrays, то есть полностью построенные на флеше массивы, — подходят как нельзя лучше. Разве что до последнего времени сохранялись сомнения в том, сравнимы ли они по надёжности с собранными на основе HDD и с гибридными.

Так что перспективы All-Flash омрачал вопрос, как предотвратить гибель данных в том случае, если SSD прикажет долго жить. Резервное копирование — вариант привычный, вот только время восстановления было бы неприемлемо большим исходя из современных требований.

Однако цифры говорят иное: статистика гигантов digital-экономики, включая Google, за последние годы показывает, что флеш кратно надёжнее, чем жёсткие диски. Причём как на коротком промежутке времени, так и на длинном: в среднем до выхода флеш-накопителей из строя проходит четыре-шесть лет.

Ещё один традиционный аргумент в пользу шпиндельных накопителей — их ценовая доступность. Спору нет, стоимость хранения терабайта на жёстком диске до сих пор сравнительно невелика. И если брать в расчёт только расходы на оборудование, держать терабайт на шпиндельном накопителе дешевле, чем на твердотельном.

С такого угла зрения всё совсем иначе. Даже если вынести за скобки дедупликацию и компрессию, которые, как правило, применяются на флеш-массивах и делают их эксплуатацию выгоднее экономически, остаются такие характеристики, как занимаемое носителями место в стойке, тепловыделение, энергопотребление.

Согласно отчётам агентства ESG, на All-Flash системах хранения данных Dorado V6 реально добиться снижения стоимости владения до 78% на интервале в пять лет — в том числе за счёт эффективной дедупликации и компрессии и благодаря невысоким энергопотреблению и тепловыделению. Немецкая аналитическая компания DCIG также рекомендует их к использованию как оптимальные с точки зрения TCO из доступных на сегодняшний день.

Использование твердотельных накопителей даёт возможность экономить полезное пространство, снижает число отказов, сокращает время на обслуживание решения, уменьшает энергопотребление и тепловыделение СХД. И оказывается, что AFA в экономическом отношении как минимум сопоставим с традиционными массивами на шпиндельных накопителях, зачастую же превосходит их.

Новый ландшафт данных — новое хранение данных

Интенсивность работы с данными повышается во всех отраслях. И банковская сфера тому нагляднейшая иллюстрация. За последние несколько лет число банковских транзакций увеличилось в десять с лишним раз. Как показывает

, только в России на отрезке с 2021 по 2021 год количество безналичных транзакций с помощью пластиковых карт показало более чем тридцатикратный рост — с 5,8 до 172 на одного человека в год. Дело прежде всего в триумфе микроплатежей: большинство из нас сроднилось с онлайн-банкингом, и банк у нас теперь под рукой — в телефоне.

IT-инфраструктура кредитной организации должна быть готова к такому вызову. А это действительно вызов. Помимо всего прочего, если раньше банку требовалось обеспечить доступность данных лишь в свои рабочие часы, то теперь — 24/7. Ещё недавно 5 мс считались приемлемой нормой задержкой, и что же? Сейчас даже 1 мс — перебор. Для современной системы хранения данных целевое значение — 0,5 мс.

То же самое с надёжностью: в 2021-е сформировалось эмпирическое понимание того, что достаточно довести её уровень до «пяти десяток» — 99,999%. Правда, понимание это успело устареть. В 2020 году для бизнеса абсолютно нормально требовать 99,9999% применительно к хранилищу и 99,99999% применительно к архитектурному решению в целом.

Для наглядности удобно спроецировать эти показатели на плоскость денег. Проще всего — на примере финансовых организаций. На диаграмме выше указано, какую сумму в течение часа зарабатывает каждый из топ-10 мировых банков. У одного только Промышленного и коммерческого банка Китая это ни много ни мало $5 млн.

Ровно во столько обойдётся часовой простой IT-инфраструктуры крупнейшей кредитной организации КНР (причём в расчёте учтена лишь упущенная выгода!). При таком ракурсе видно, что сокращение даунтайма и повышение надёжности не то что на единицы процентов — даже на доли процента полностью рационально обоснованны. Не только из соображений повышения конкурентоспособности, но и попросту ради сохранения рыночных позиций.

Сопоставимые изменения происходят в других индустриях. Например, в воздушных перевозках: до пандемии авиасообщение год от года только набирало обороты, и многие стали пользоваться им почти как такси. Что касается потребительских паттернов, в обществе укоренилась привычка к тотальной доступности сервисов: по прибытии в аэропорт нам требуется подключение к Wi-Fi, доступ к платёжным сервисам, к карте местности и т. д.

Операторы связи

Пожалуй, одними из старейших потребителей распределённых систем хранения являются операторы связи. На схеме видно, какие группы приложений производят основной объём данных. OSS (Operations Support Systems), MSS (Management Support Services) и BSS (Business Support Systems) представляют собой три дополняющих друг друга программных слоя, необходимых для предоставления сервиса абонентам, финансовой отчётности провайдеру и эксплуатационной поддержки инженерам оператора.

Зачастую данные этих слоев сильно перемешаны между собой, и, чтобы избежать накопления ненужных копий, как раз и используются распределённые хранилища, которые аккумулируют весь объём информации, поступающей от работающей сети. Хранилища объединяются в общий пул, к которому и обращаются все сервисы.

Наши расчёты показывают, что переход от классических СХД к блочным позволяет сэкономить до 70% бюджета только за счёт отказа от выделенных СХД класса hi-end и использования обычных серверов классической архитектуры (обычно x86), работающих в связке со специализированным ПО.

Да, ряд задач с помощью распределённых систем выполнить не получится. Например, при повышенных требованиях к производительности или к совместимости со старыми протоколами. Но не менее 70% данных, которые обрабатывает оператор, вполне можно расположить в распределённом пуле.

От интеграции к конвергенции

Классической задачей, актуальность которой последние 15 лет лишь росла, является необходимость одновременно обеспечить блочное хранение, файловый доступ, доступ к объектам, работу фермы для больших данных и т. д. Вишенкой на торте может быть ещё, например, система бэкапа на магнитную ленту.

На первом этапе унифицировать удавалось только управление этими услугами. Разнородные системы хранения данных замыкались на какое-либо специализированное ПО, посредством которого администратор распределял ресурсы из доступных пулов. Но так как аппаратно эти пулы были разными, миграция нагрузки между ними была невозможна.

Самый совершенный из доступных нам сейчас методов конвергенции подразумевает создание универсальной гибридной системы. Именно такой, какой должна стать наша OceanStor 100D. Универсальный доступ использует те же самые аппаратные ресурсы, логически разделённые на разные пулы, но допускающие миграцию нагрузки.

Стоимость хранения информации сейчас определяет многие архитектурные решения. И хотя её можно смело ставить во главу угла, мы сегодня обсуждаем «живое» хранение с активным доступом, так что производительность тоже необходимо учитывать. Ещё одним важным свойством распределённых систем следующего поколения является унификация.

Роял-флеш от huawei

Среди наших All-Flash хранилищ топовое место принадлежит hi-end-системе OceanStor Dorado 18000 V6. Да и не только среди наших: целом по индустрии она держит рекорд скорости — до 20 млн IPOS в максимальной конфигурации. Кроме того, она чрезвычайно надёжна: пусть даже полетят разом два контроллера, или до семи контроллеров один за другим, или сразу целый движок — данные уцелеют.

В значительной части фора у компании Huawei имеется потому, что она единственный на рынке производитель, делающий системы хранения данных сам — целиком и полностью. У нас своя схемотехника, свой микрокод, своё сервисное обслуживание.

Контроллер в системах OceanStor Dorado построен на процессоре собственной разработки и производства Huawei — Kunpeng 920. В нём задействован модуль управления Intelligent Baseboard Management Controller (iBMC), тоже наш. Чипы ИИ, а именно Ascend 310, которые оптимизируют предсказания по отказам и дают рекомендации по настройкам, также хуавеевские, равно как и платы ввода-вывода — модуль Smart I/O.

За последний год мы реализовали проект по внедрению этой, самой топовой своей СХД в одном из крупных российских банков. В результате более 40 единиц OceanStor Dorado 18000 V6 в metro-кластере показывают стабильную производительность: с каждой системы удаётся снять более миллиона IOPS, и это с учётом задержек из-за расстояния.

Технологии

Тут описаны технологии, которые не рассмотрены в RAID-контроллерах

Cache mirroring

Cache mirroring используется при наличии нескольких контроллеров в СХД (у Huawei всегда несколько контроллеров, минимум 2). Данные между контроллерами по шине синхронизации синхронизируются для целостности данных в случае отказа одного из контроллеров. Cache mirroring делается всех типов операций – read/write/mirror. Причем главным считается write.

Multipathing

Multipathing – поддержка нескольких аплинк каналов от СХД до серверов. Нет зависимости от канала/промежуточного коммутатора. Особенность технологии еще и в том , что можно сделать так, чтобы для сервера оба канала виделись как один ЖД (LUN), а не по одному LUN на каждый канал.

Data coffer

На случай полного фатала с питанием (выход из строя двух БП/обоих лучей питания) в controller enclosure встроен функционал сохранения данных RAID кэша. Реализуется не через BBU ОЗУ или суперконденсаторы flash, как на RAID-контроллерах серверов (и на старших моделях СХД), а используя батареи (батарейные блоки BBU)   служебное пространство 4 дисков.

При проблеме с питанием данные из кеша контроллера переносятся на специальные разделы coffer disk’ов (раздел равен кешу контроллера, 4 диска – 2х2 диска в RAID1). Остальная часть дисков, не отведенная под раздел coffer, используется стандартно. После включения контроллер выгружает данные из coffer куда нужно.

LUN copy

Копирование LUN. Требует запрет на запись (не на чтение) в данный LUN для корректного снятия копии в определенный момент времени.

HyperClone (LUN clone) и Synchronization

Мгновенное копирование LUN используя синхронизацию (synchronization) между LUN. Не требует запрета на чтение, но занимает весь объем, отведенный под LUN, а не только объем данных LUN.

Синхронизация может происходить как между основным и резервным LUN, так и обратно.  Для восстановление данных используется обратная синхронизация с клонированного LUN на основной (reverse synchronization).  После синхронизации происходит обрыв синхронизации (split)

HyperSnap (Snapshot)

Позволяет снять копию системы (определенного LUN) в определенный момент времени. Есть у всех вендоров СХД. У Huawei основан на технологии copy-on-write (еще популярен у вендоров allocated-on-write).

  • Для снятия snapshot не требуется остановка системы, в отличии от LUN copy.
  • Snapshot занимает только пространство отведенное под ненулевые данные LUN, а не весь объем, отведенный под LUN, как это делает Clone.

В СХД типа OceanStor 9000 snapshot может быть сделан за одну секунду без влияния на сервис. Подробнее зачем нужны snapshot/replication см. в статье backup.

Существует два варианта восстановления из snapshot:

  • side-by-side recovery: создается сопоставление snapshot LUN для хоста, который “видит” оригинальный LUN. В результате конкретные данные могут быть скопированы на уровне ОС.
  • rollback function: оригинальный LUN (и все его данные) просто подменяется snapshot LUN.

HyperReplication (Remote Replication)

Репликация данных с одного СХД на другой. Требует несколько одновременно работающих СХД в отличии от LUN copy/snapshot, которые могут быть сохранены на том же СХД. Репликация может быть синхронная или асинхронная (с задержкой), в зависимости от ширины канала и задержки:

  • Синхронная репликация – при записи хоста на основной СХД хост не получит подтверждение успешности записи пока основной СХД не получит подтверждение от СХД, с которым происходит репликация.
  • Асинхронная репликация – основной СХД сразу отвечает хосту, а уже на фоне просто делается snapshot и далее данные передаются на второй СХД.

В настройках обычно можно задавать максимальную полосу канала, выделяемую под репликацию. Кроме того реплики могут быть полными или инкрементальными.

Могут быть разные варианты реализации репликации между СХД: один к одному/ко многим или двухсторонние реплики. Подробнее зачем нужны snapshot/replication см. в статье backup.

Квоты

Квоты позволяют сделать ограничение для определенных пользователей по объему выделяемого им пространства. Зачастую поддерживается интеграция с NIS/LDAP/AD (слайд для СХД OceanStor 9000).

WORM

WORM – write once read many. Система блокирует после создания файла его изменение и удаление. Таким образом обеспечивается неизменяемость информации (отчеты сотрудников, правовая или медицинская информация). Через определенный период, заданный админом, файл можно удалить или повторно заблокировать, но изменить нельзя.

QoS

Аналогия QoS в IP-сетях, вместо пакетов используются I/O requests. Можно в системе настраивать приоритетность обработки тех или иных запросов на чтение/запись на определенный LUN. В зависимости от приоритета формируются очереди.

Дедупликация

В СХД может быть реализован функционал глобальной дедупликации данных (защиты от дублирования) путем сравнения файлов или объектов между собой (OceanStor 9000). Подробнее о дедупликации см. в отдельной статье.

HyperThin/SmartThin

Thin LUN – динамический LUN, который автоматически расширяется при заполнении. ОС видит такой LUN как обычный Thick LUN, но по факту контроллер предоставляет меньше объема, чем размер LUN и автоматически расширяет его при потребности ОС.

Пространство без данных можно использовать для другого LUN. В результате пространство используется эффективнее, но в случае полной забивки динамического LUN может произойти коллапс. При создании Thin LUN отжирает 64МБ под свои задачи и по мере появления данных в Thin LUN потребует еще служебного пространства, помимо основных данных.

SmartTier

У вендоров может быть реализована поддержка разных типов дисков (SSD, SAS, NL-SAS). В результате разные по типу диски могут стоять в одной полке. В случае Huawei технология называется SmartTier и поддерживается на RAID 2.0 и СХД OceanStor 9000 (тут она InfoTier). Для работы SmarTier на Disk Domain нужно чтобы в нем были диски разных типов (не обязательно три типа, можно и два).

SmartTier на основе технологии dynamic storage tiering (DST) определяет, какие данные более востребованы и переносит их на SSD (high-perfomance tier), менее же востребованные же переносит на HDD (perfomance tier: SAS, capacity tier: NL-SAS). Происходит это в три этапа:

  • Анализ входящих/исходящих операций (i/o monitoring)
  • Анализ возможностей размещения данных (data placement analysis)
  • Перемещение данных (data relocation)

Перемещение происходит в ненагружанные часы (можно задать вручную или использовать автоматический выбор на основе i/o), потому что потребляет ресурсы СХД . Определенные файлы можно закрепить за каким то уровнем. По умолчанию функционал выключен, даже если лицензия куплена – нужно задавать настройки политик перемещения для определенного LUN (automatic, highest, lowest, no relocation).

Специфические утилиты восстановления

Могут быть реализованы специфические утилиты восстановления данных, например, функционал по восстановлению видео (в OceanStor 9000). Как говорит автор до такого лучше не доводить – лучше следить за состоянием RAID/ЖД в нем, делать snapshot и прочее.

Оцените статью
Huawei Devices
Добавить комментарий