РАИДизация — самый надежный способ сохранения данных
8 апреля 2004
Рубрика: Обзоры и мнения.
Автор: .
pic

Чего только мы ни делаем для того, чтобы сохранить данные. Любая уважающая себя организация делает архив, будь то на стримерной ленте, CD-R или же на специализированных накопителях-библиотечках. Данные можно потерять в любой момент, а что делать если это критически важные файлы, созданные минуту, секунду, мгновение назад. Ведь архивирование информации производится с определенным интервалом. Хранение же ее на жестком диске ПК является самым ненадежным способом, однако для таких случаев имеется технология, пришедшая из мира серверов. О ней мы и расскажем подробнее, тем более что ее реализация с применением интерфейса E-IDE/ATAPI-SATA (а не только SCSI) доступна уже даже рядовым пользователям.

Технология RAID (ДИСКОВЫЙ МАССИВ RAID — Redundant Array of Inexpensive/Independent Disks) была впервые разработана в 1987 году сотрудниками Калифорнийского университета в Беркли. Ее основная цель — обеспечение надежности хранения данных в дисковой памяти ПК. Каковы основные признаки технологии RAID?
Во-первых, она предполагает использование наборов (два и более) дисков HDD, доступных пользователям как один логический диск. Во-вторых, данные распределяются по набору дисков определенным способом, соответствующим одному из уровней RAID. Необходимо также понимать, что на случай неисправностей (отказов) дисков массив содержит дополнительную (избыточную) емкость, обеспечивающую возможность восстановления данных. Технология имеет набор спецификаций устройств хранения данных, связанных с «Уровнями RAID», определяющими способы распределения на дисковом массиве, их резервирования и восстановления.
Несмотря на общее название, архитектура RAID имеет существенные различия, определяющие различные способы объединения нескольких жестких дисков в единую систему так, чтобы она функционировала как один диск. Изначально было определено шесть уровней RAID, позднее появились дополнительные смешанные уровни (всего определено восемь уровней). Примером реализации данной технологии является конструкция накопителей с так называемыми зеркальными дисками.
В зависимости от того, как осуществляется управление, массивы RAID делятся на две категории — с программным и аппаратным контролем. Последние, в свою очередь, различаются расположением управляющего аппаратного обеспечения: это либо отдельный хост-контроллер, либо встроенный (такую конфигурацию иногда называют «SCSI-to-SCSI», IDE RAID). В последнее время получили распространение интегрированные на системной плате E-IDE/ATAPI контроллеры RAID (правда, использующие не все из ниже перечисленных уровней «раидизации»).

pic

Сегодня известны следующие типы (уровни) RAID-массивов:

RAID 0 — дисковый массив без дополнительной отказоустойчивости: поток данных разбивается на блоки, которые последовательно записываются на диски. Основные достоинства: простота конструкции и изготовления, высокая производительность. За счет того, что файлы записываются блоками на два диска, скорость передачи данных дисковой подсистемы резко возрастает. Коэффициент использования дискового пространства (отношение объема полезных данных к суммарному объему дискового массива) равен 1. Недостатком является низкая отказоустойчивость. Выход из строя одного из дисков приводит к потере всех данных, хранящихся на всем дисковом массиве.

RAID 1 — дисковый массив с зеркалированием данных: блок данных записывается в двух экземплярах на отдельные диски. Достоинства: скорость записи та же, что и для одного диска, высокая скорость восстановления данных, простота конструкции, единственный вид RAID-массивов, позволяющий получить отказоустойчивую дисковую подсистему на двух дисках. Недостаток: низкий коэффициент использования дискового пространства, равный 0,5.

RAID 2 — дисковый массив, использующий алгоритм Хамминга для проверки/ восстановления данных: поток данных разбивается на «слова данных», каждое слово, в свою очередь, разбивается на биты, при этом количество бит в слове должно равняться количеству дисков с данными, биты последовательно записываются на диски с данными. Для каждого слова данных по алгоритму Хамминга вычисляется слово ЕСС-кода (Error Checking/Correction Code — код для проверки/коррекции ошибок), по существу являющееся контрольной суммой, запись которой используется для проверки и исправления ошибок. Достоинства: высокая скорость исправления ошибок и передачи данных (последняя тем выше, чем больше количество дисков в массиве), коэффициент использования дискового пространства (см. ранее) увеличивается с ростом числа дисков в массиве, относительная (по сравнению с RAID 3, 4 и 5 см, далее) простота контроллера. Недостатки: в случае малого размера «слова данных» очень низкий коэффициент использования дискового пространства.

RAID 3 — дисковый массив с вычислением контрольной суммы параллельно с передачей данных: поток данных разбивается на сегменты, которые записываются на диски, контрольная сумма вычисляется при выполнении операции записи и сохраняется на диске с данными контроля. Достоинства: очень высокая скорость чтения и записи данных, выход из строя одного диска незначительно влияет на общую производительность массива, высокий коэффициент использования дискового пространства. Недостатки: трудность реализации программными средствами, средняя сложность конструкции, программная реализация требует значительной вычислительной мощности.

RAID 4 — дисковый массив с независимыми дисками данных и общим диском для хранения контрольных сумм: массив данных делится на блоки данных, каждый блок целиком записывается на диск, запись производится последовательно по дискам, контрольная сумма (общая для всех блоков одного ряда) вычисляется во время операции записи данных, помещается на диск с контрольными данными и проверяется в процессе чтения. Достоинства: высокая скорость чтения данных и высокий коэффициент использования дискового пространства. Недостатки: наименьшая из всех RAID-массивов скорость записи, сложный и неэффективный алгоритм восстановления данных в случае выхода из строя одного из дисков.

RAID 5 — дисковый массив с независимыми дисками данных и равномерным распределением контрольных сумм между дисками: блоки данных последовательно записываются на диски, контрольная сумма для блоков одного ряда вычисляется во время записи, контрольные суммы размещаются последовательно по всем дискам.
Достоинства: высокая скорость чтения и записи данных, высокий коэффициент использования дискового пространства. Недостатки: выход из строя одного из дисков оказывает заметное влияние на производительность, сложный конструктив контроллера, сложный алгоритм восстановления данных в случае выхода из строя одного из дисков.

RAID 6 — дисковый массив с независимыми дисками данных и двумя независимыми схемами контрольных сумм, распределенными между дисками: усовершенствованный вариант RAID 5, к которому добавлена еще одна схема контрольных сумм, независимая от первой. Достоинства: высокая скорость чтения данных и высокая отказоустойчивость. Недостатки: сложная конструкция контроллера, большая нагрузка на контроллер при вычислении контрольных сумм, очень малая скорость записи, низкий коэффициент использования дискового пространства (например, для массива из 5 дисков он равен ~0,6-0,8), к тому же ни одна из коммерческих фирм не производит дисковых подсистем этого типа.
RAID 7 — дисковый массив с асинхронным вводом/выводом и высокой скоростью передачи данных: все операции ввода/вывода выполняются в асинхронном режиме, то есть все операции контролируются независимо от выполнения других, данные в процессе ввода/вывода кэшируются, управление массивом RAID 7 возложено на многозадачную операционную систему, благодаря которой каналы передачи данных контролируются в режиме реального времени. Массив RAID 7 может иметь до 12 внешних интерфейсов обмена данными, что позволяет подключать его одновременно к нескольким компьютерам, поддерживается технология «горячей замены» вышедших из строя дисков, а также возможен мониторинг состояния и управление массивом в удаленном режиме. Достоинства: производительность выше примерно от 1,25 до 6 раз, чем у RAID-массивов других типов, очень высокая скорость доступа к данным в многопользовательской среде, скорость чтения и записи увеличивается при увеличении числа дисков в массиве. Недостатки: высокая стоимость, массивы этого типа производит только одна фирма (Storage Computer).
RAID 10 (или 0+1) — комбинация технологий RAID 1 и RAID 0. Достоинства: имеет ту же отказоустойчивость, что и RAID 1, скорость записи и чтения несколько выше, чем у RAID 1.
RAID 03 — комбинация технологий RAID 3 и RAID 0. Достоинства: имеет такую же отказоустойчивость, что и RAID 3 при несколько более высокой скорости чтения и записи. Недостатки: высокая стоимость, низкий коэффициент использования дискового пространства.
RAID 0/1 — комбинация технологий 0 и 1, однако данные хранятся по меньшей мере на четырех дисках.

Какие RAID-контроллеры бывают

Физически RAID-контроллер представляет собой адаптер на шину PCI (если не считать интегрированные на системной плате контроллеры) в комплекте с программным обеспечением. RAID-контроллеры бывают с интерфейсами SCSI, IDE (вплоть до Ultra ATA 100), а недавно появились контроллеры и на новый Serial ATA (SATA). В самом общем виде все контроллеры бывают двухканальные (Dual-channel) и одноканальные (Single-channel), есть даже и Zero-channel-контроллеры. Впрочем, бывают и трехканальные. Двух (трех)-канальный контроллер означает, что вы можете подключать винчестеры к двум (трем) независимым каналам, и в случае если один из контроллеров выйдет из строя, то будет работать второй (+третий) канал. Резервирование — вещь полезная, хотя и дорогая. Для того чтобы сохранить даже те файлы, которые пересылались в момент сбоя в некоторых наиболее продвинутых контроллерах, устанавливается дополнительная память (expandable cache memory) объемом 32-64 (и более) Мбайт. Наиболее именитыми производителями RAID-контроллеров являются: Adaptec, Promise, Tekram и, конечно же, старый, добрый Mylex. Причем практически все они производят как SCSI, так и IDE-контроллеры в самом широком ассортименте. С недавнего времени появились даже RAID-контроллеры неизвестных производителей. Что же касается цен — самый недорогой None Name производителя IDE RAID-контроллер может стоить от $18. Неплохой адаптер Tekram DC200 UATA100 DualCannel (Retail) стоит не более $30 (!) Специалисты помнят, что еще несколько лет назад RAID-контроллер Mylex DAC960PD-3 (RAID level 0, 1, 5, 1+0, JBOD, cache 4МБ,3Fast/WideSCSI-2 chanel,up to 20Мб/сек. per channel, up to 45 devices (up to 15 per channel) на основе знаменитого RISC-процессора Intel 960 стоит сегодня менее $125, а ведь еще четыре года назад его покупали за $1000 и выше.
В общем, учитывая ценовое падение при повышении сервисов RAID-контроллеров, можно утверждать, что настало время повсеместного внедрения RAID-массивов. Во-первых, можно данные сохранить, ну а если это для вас некритично, то, используя недорогой IDE RAID-контроллер на уровне 0, можно значительно увеличить скорость дисковой подсистемы, установив два (и более) винчестера.
Подводя как бы краткий итог этой статьи, хотел бы упомянуть, что технология RAID применяется, прежде всего, в серверных платформах, основанных на массивах жестких дисков с интерфейсом SCSI. Понятно, что в рамках данной статьи дать исчерпывающую информацию по применению RAID невозможно, даже если рассказать о конкретных моделях RAID-контроллеров. Однако общая информация о RAID-технологии будет полезна широкому кругу пользователей, тем более что в последнее время практически все производители материнских плат для настольных ПК стали интегрировать контроллеры IDE RAID (0, 1, 0+1). Из написанного выше понятно, что применение уровня RAID 0 наиболее эффективно, когда важна консолидированная скорость дисковой подсистемы, но неважны вопросы отказоустойчивости и восстановления данных. Для тех, кто любит компромисс, верным решением станет применение IDE RAID уровня 0+1. Сегодня, даже не имея системы со SCSI-винчестерами (цена на последние значительно выше, чем на обычные E-EDE или новые SATA), можно иметь весьма недорогие компьютеры, сопоставимые по производительности и надежности с серверами начального уровня. Так что, если в наименовании приглянувшейся вам платы имеется буковка «R», покупайте ее, игра стоит свеч — «раидизация» еще никому не навредила. Если, конечно, не считать кошелек.

Термины, связанные с RAID-технологией.

Горячая замена [hot swapping] — процесс замены отказавшего накопителя в дисковом массиве на резервный без отключения питания и перезагрузки системы.
Зеркальное дублирование [mirroring], или аппаратное зеркалирование — способ защиты данных путем создания одной или нескольких их копий на отдельном диске массива (применяется только в RAID уровня 1).

Зеркальный диск (mirror disk) — диск, реализующий функции зеркального дублирования.

Избыточное кодирование [redundancy] — способ защиты данных без их дублирования, сберегающий дисковое пространство (применяется в RAID уровней 2, 3, 4 и 5). В соответствии с этим способом с каждого накопителя производится выборка данных, над которыми выполняются логические операции, причем окончательные данные сохраняются на одном или нескольких дополнительных накопителях. В результате как бы составляется уравнение с четырьмя переменными, причем каждая переменная и решение хранятся на отдельных накопителях. При отказе дисковода с данными система производит перерасчет уравнения и выявляет недостающие биты (однако, если откажут одновременно сразу два накопителя, то для восстановления данных информации будет недостаточно).
RAID уровня 5 контрольная информация записывается на все диски массива, а в RAID уровней 2, 3 и 4 — на специально выделенный для этой цели накопитель.

Отказоустойчивость [fault tolerance] — характеристика устойчивости к повреждениям. Достигается за счет введения дополнительных (избыточных) компонент в системе хранения данных для сохранения работоспособности системы при сбое в работе ее важных составляющих узлов.

Ударопрочность [G-shock rating] — параметр, определяющий способность дисковода или другого устройства противостоять тряске и ударам (большее число означает большую сопротивляемость ударам).

Число циклов старт/стоп [CSS] — предполагаемое, гарантируемое или фактическое число включений накопителя, после которого головки могут повредить поверхность дисковых пластин.

Реконструкция [rebuild, reconsraction] — восстановление поврежденных данных при помощи избыточного кодирования. Реконструкция диска — процесс долгий (он может занять несколько часов), поэтому хороший массив RAID должен уметь производить реконструкцию в фоновом режиме и одновременно выполнять текущую работу
(см. «Recovery»).

Скорость передачи [transfer rate] — характеристика, обозначающая скорость пересылки данных между ЭВМ и устройствами их хранения. Обычно выражается в количестве символов в секунду.

Среднее время поиска [average seek time] — время, необходимое дисководу для перемещения головок в нужное место диска для нахождения затребованных данных.

Чередование, расщепление [striping] — метод записи данных с разделением их на фрагменты, которые фиксируются на нескольких дисках массива RAID для ускорения процессов чтения/записи.

MTBDL [Mean Time Between Data Loss] — среднее время между потерями данных определяется средним временем безотказной работы дискового массива, соответствует MTBF применительно к устройствам RAID.

MTDA [Mean Time of Data Availability] — среднее время пригодности данных — характеристика, которая определяется как вероятность одновременного отказа двух дисков массива RAID, разделенная на среднее время их замены (см. «MTTR») и восстановления данных.

MTTF [Mean Time To Failure] — среднее время до неисправности связано с MTBDL и определяет среднее время между отказами первого и второго дисков в дисковом массиве RAID.

MTTR [Mean Time To Recovery] — среднее время замены вышедшего из строя устройства.

Recovery — процесс динамического восстановления данных с отказавшего диска с использованием данных, записанных на диске четности, и других дисках.

Orphus system
Подписывайтесь на канал infoCOM.UZ в Telegram, чтобы первыми узнавать об ИКТ новостях Узбекистана
В Telegram
В WhatsApp
В Одноклассники
ВКонтакте