Для корректного отображения этого элемента вам необходимо установить FlashPlayer и включить в браузере Java Script.
+7 (495) 775-33-76




Переосмысление подходов к хранению данных

"Информация - кровь компании"
Джон Маккартер

Эта статья посвящена тем, кто серьезно задумывается над завтрашним днем своей организации.

Не так давно я попал на весьма любопытный тренинг, где нас разделили на команды и попросили в течение пятнадцати минут помечтать о том, что будет с миром через в 10 лет в плане информационных технологий. Можно было только удивляться изобретательности и оригинальности тех идей и прогнозов, которые были высказаны. От бункеров и околоземных спутников с колоссальными хранилищами данных, к которым подключен каждый индивидуум или организация до особых нематериальных полей - носителей, общение с которыми осуществляется с помощью мысли. Но какой бы изощренной была человеческая фантазия, я заметил одно - в любой идее неизменно присутствовали три элемента или составные части всей информационной технологии. Это - данные, носители, на которых они хранятся, и методы доступа к ним.

Давайте попробуем поразмышлять о том, насколько важны сегодня проблемы хранения данных, и разобраться в океане разношерстной информации о современных технологиях в этой области. Поскольку журналисты еще не пришили к единой русской терминологии, я осмелюсь оставить специальные термины на языке оригинала.
Джон Маккартер, вице-президент компании IDC, сравнивает данные с кровью. Действительно, кровь - это то, на чем основывается жизнь организма. А так, как предприятие или организация - это организм, то данные для нее - это та кровь, которая питает ее жизнедеятельность. Низкая достоверность данных ведет к принятию руководителями роковых решений. Плохая организация доступа к данным и их хранения ведут к увеличению риска их потери, увеличению стоимости владения ими, а также к замедлению принятия решений. По данным IDC за последние десять лет из 40% американских компаний полностью лишившихся своих данных в результате пренебрежительного отношения к технологиям их хранения только 10% смогли вернуться к бизнесу и только 4% (!) из них выжили в течение последующих трех лет.

Объем данных в цифровой форме увеличивается на планете в экспоненциальной прогрессии. Один известный швейцарский банк, недавно серьезным образом занявшийся превращением своих документальных архивов, содержащих документы с конца позапрошлого века в цифровую форму, обнаружил для себя две любопытные вещи. Первая - это то, что с конца ХIХ века до 1998 года он накопил два терабайта данных, а с 1998-го по начало 2001-го - еще два. Вторая - это то, что те самые два терабайта бумажных документов, занимавших целых два больших этажа архивного хранилища, поместились на ленточной библиотеке, величиной немного превышающей обычный файл сервер. И доступ к любому из них можно осуществить в считанные секунды. Прощайте архивная пыль и долгие часы поисков нужного документа. Здравствуй век цифры!

Данные становятся важным активом компании


Итак, мы можем взять на себя смелость утверждать, что с наступлением эры электронного бизнеса, внедрения автоматизированных систем документооборота, информация становится самостоятельным и важнейшим корпоративным активом.

Актив должен приносить прибыль. Поэтому руководители организаций должны ожидать решений "под ключ". Ушли те дни, когда функционирование предприятия было строго подчинено выбору той или иной технологии, когда руководители отделов автоматизации выпрашивали у своих начальников дополнительный сервер или очередную заплату на программное обеспечение или оптоволоконную сеть. А те, неохотным росчерком пера увеличивали затратную часть своей информационной инфраструктуры. Или на вашем предприятии до сих пор присутствует сей экстенсивный путь развития? Очевидно одно, информационная инфраструктура должна прекратить "есть" ресурсы и начать приносить реальную прибыль. И руководители должны начать требовать возврата на инвестированные туда средства.

Решения "под ключ" не должны быть статичными. Скорее они должны отражать реальные потребности в росте информационных потоков и обеспечивать готовность к сюрпризам (например, к неожиданным гигантским скачкам вперед). Таким образом, организации, планирующей рост объема данных от 500 гигабайт до 5 терабайт за 5 лет, нет необходимости сразу выкладывать деньги за хранилище, емкостью 5 терабайт. Она может постепенно наращивать объем исходя из реальных потребностей. К счастью, новые технологии, о которых пойдет речь далее, это позволяют.

Современные архитектуры хранения данных: DAS, NAS и SAN


Сегодня можно выделить одну традиционную и две уже уверенно входящие в жизнь архитектуры хранения данных.
Большинство устройств хранения данных, таких как дисковые и ленточные накопители, а также RAID массивы, подключены непосредственно к клиентскому компьютеру или серверу при помощи различных адаптеров, использующих стандартные протоколы ATA, SCSI или в редких случаях Fibre Channel. Такой тип архитектуры хранения данных называется Direct Attached Storage (DAS). Недостатками DAS являются в первую очередь высокая стоимость хранения и управления данными ввиду их разбросанности по организации, а также вынужденный простой сети в момент добавления новых дисков и необходимость наращивания памяти или процессорной мощи сервера при превышении определенного размера дискового пространства. Перегруженность сетевого трафика с добавлением новых серверов усложняет проблему защиты данных, препятствует эффективному использованию ресурсов, и т д. Затраты и новые проблемы растут как снежный ком.
Все это потребовало переосмысления того, как мы проектируем инфраструктуры хранения данных и управляем ими. Современные системы хранения данных должны быть гибкими, доступными 24 часа в сутки, 7 дней в неделю, способными "растягиваться" и "сжиматься" в зависимости от наших потребностей и, кроме того, консолидировать данные.

Консолидация или централизация данных организации в одном месте намного упрощает управление и доступ к ним (рис.1).

Рис. 1. Централизованное хранение данных

Технологии Fibre Channel, Gigabit Ethernet, iSCSI позволяют достигать высоких (до 10 Гбит/сек) скоростей обмена данными между сервером и хранилищем данных и обеспечивают удаление серверов от хранилища на расстояние до 20км в случае использования Fibre Channel, или на неограниченное расстояние в случае iSCSI. Теперь организации могут планировать размещение хранилищ данных так же, как отделы логистики планируют размещение складов и передвижение товаров! Стоимость управления и содержания информационной инфраструктуры резко падает. Для поддержания работы современного центра данных (именно так мы будем отныне называть централизованную систему хранения) требуется лишь треть всего персонала, задействованного на аналогичную систему, построенную на основе архитектуры DAS. Значительное уменьшение времени простоя, возможность постепенно увеличивать емкость хранилища без преждевременных затрат, получение более полного контроля над этим ценным активом по имени "данные", также вносят свою лепту в значительное удешевление системы и самое главное, со временем делают ее источником прибыли.

Одной из технологий создания эффективных центров данных является Storage Area Network (SAN). Как показано на рисунке 2, SAN позволяет подключать к одному или нескольким хранилищам любое количество серверов. Хранилища объединены в свою собственную высокоскоростную сеть, которая занимается исключительно тем, что переносит данные на сервер и наоборот.

Другой активно развивающейся технологией является Network Attached Storage (NAS). В отличие от SAN, NAS имеет свою собственную файловую систему и включается непосредственно в корпоративную сеть (рис.3). NAS снимает с серверов всю заботу за организацию собственно файл сервинга и работает непосредственно с приложениями.


Рис. 2. Storage Area Network (SAN)


Рис. 3. Network Attached Server (NAS)

Понимание технических различий между архитектурами


Для начала, мы научимся отличать логические запросы чтения/записи от физических. Накопители на жестких дисках, или винчестеры, это электромагнитные устройства, которые организуют данные в блоки, секторы и дорожки. Те, в свою очередь, располагаются на вращающейся магнитной пластине. Многочисленные блоки образуют файлы, хотя диск об этом не "знает", так как понимает запросы только на чтение или запись физических блоков. Программы и приложения же запрашивают данные только в виде файла, что называется логическим запросом на чтение/запись. Роль "переводчика" с языка файла на язык физических блоков выполняет файловая система. В случае DAS и SAN файловая система является частью операционной системы сервера (Unix, Windows, Novell и т. д.) В случае NAS файловая система располагается непосредственно на NAS- сервере (рис. 4).


Рис. 4. Различия в архитектурах

Итак, в архитектурах DAS и SAN преобразование файла в совокупность физических блоков данных осуществляется на уровне операционной системы. Для архитектуры NAS это преобразование осуществляется на уровне собственной операционной системы NAS, что ощутимо разгружает клиентскую часть.

Как видно из рисунка 4, приложение сначала посылает логический запрос на необходимый ему файл, файловой системе клиента или сервера. В DAS и SAN файловая система определяет местонахождение блока данных внутри файла и посылает команду SCSI на локальные или удаленные дисковые контроллеры. Эти команды SCSI упаковываются в контрольный блок данных SCSI (SCSI Control Data Block (CDB)) и посылаются контроллеру для извлечения данных и возврата их файловой системе. В архитектуре SAN вместо шины SCSI используется либо сеть Gigabit Ethernet (E-SAN), либо Fibre Channel (FC-SAN). Команды SCSI вставляются в пакет протокола Gigabit Ethernet или Fibre Channel и посылаются по сети удаленному дисковому контроллеру.

В архитектуре NAS (рис. 4) удаленная файловая система NAS посылает команду SCSI удаленному дисковому контроллеру. В этом случае все блоки данных, которые образуют запрашиваемый приложением файл, посылаются назад запрашивающей стороне, то есть клиенту или серверу, по корпоративной сети.

Таким образом, в архитектуре SAN весь трафик сети состоит из запросов на физические блоки данных, тогда как в случае NAS, трафик состоит из запросов на логические файлы со стороны приложения на удаленную файловую систему NAS и потока физических блоков данных, составляющих этот файл на обратном пути. Иными словами, SAN запрашивает данные на уровне физического блока, тогда как NAS запрашивает данные на уровне файла.
Таким образом, местоположение файловой системы относительно сети определяет архитектуру сетевого хранения данных.

Что выбрать - DAS, NAS или SAN?


До сих пор во всем мире, и тем более на обширных территориях бывших Советских республик, все еще господствует DAS. И, хотя по прогнозам IDC к 2004 году архитектура DAS будет занимать лишь треть рынка хранения данных, она, скорее всего, сохранится в сегментах рынка домашних компьютеров, малого бизнеса и больших машин (mainframes). Нишу средних и крупных предприятий займут SAN и NAS, причем в комбинированном использовании. В таблице 1 приведены отличительные черты, которые полезны при принятии решения о том, использовать ли DAS, SAN, NAS или их комбинации.

Таблица 1. Основные преимущества NAS и SAN по сравнению с DAS

Преимущества архитектур хранения данных NAS и SAN DAS NAS SAN
Удаленное подключение хранилищ Нет Да Да*
Снижение стоимости управления данными благодаря их централизации Нет Да Да
Простота увеличения емкости хранилищ Нет Да Да
Разделение финансовых затрат на покупку серверов и хранилищ Нет Да Да
Простота логистики данных Нет Да Да
Доступ к одному и тому же файлу пользователями разных OC Нет Да Нет**
Снижение риска перегрузки отдельного сервера Нет Да Да
Снижение риска перегрузки сети
Да Да
Удаление потока резервного копирования данных из локальной сети Нет Да Да
Резервное копирование без сервера Нет Да Да
Наиболее эффективное использование дискового пространства сети Нет Да Да
Поддержка кластеров Нет Нет Да
Стоимость хранения 1 Гб. Данных От $20 От $14 От $20


* В SAN до 20 км при использовании FC.
** Будущее.

Из всего вышесказанного мы можем сделать для себя несколько полезных выводов. Мы будем применять SAN там, где доступ к данным осуществляется на уровне физических блоков. Речь идет, в первую очередь, о распределенных базах данных, построенных по архитектуре клиент-сервер. Это - системы управления предприятием, банковские и финансовые системы, где критично количество транзакций в единицу времени, цифровое телевещание и т.д. Во-вторых, SAN применяется для организации бесперебойной и непрерывной работы важных приложений, отказ которых может привести к потере критически важных данных, выходу из строя оборудования или другим последствиям, выливающимся в дорогостоящие простои информационной системы. В-третьих, SAN - это прекрасное решение для организаций, здания которых разбросаны в радиусе до 20км и необходим быстрый доступ к центральному хранилищу.

Применение архитектуры SAN эффективно при организации центров обработки данных с постоянно растущими требованиями к вычислительным ресурсам и емкости хранимых данных. При использовании SAN такие задачи могут быть решены без принципиальной модификации существующей инфраструктуры благодаря комбинация сетевых интерфейсов Fibre Channel, SCSI и Ethernet.

Мы будем применять NAS там, где доступ к данным осуществляется на уровне файла. Это бизнес приложения с одновременным доступом пользователей разных платформ к одним и тем же файлам (мультимедиа, графика, документы), консолидация разрозненной информации предприятия в одном месте, хранение архивов, быстрое, недорогое и безлицензионное увеличение дискового пространства в сети.

И, наконец, мы будем применять SAN и NAS вместе там, где нам понадобится все лучшее, что есть в этих архитектурах (Рис. 5): совместный доступ ко всем данным, независимо от используемой ОС, централизованность и масштабируемость данных, высокая производительность и легкость управления ими, а также - высокая степень отказоустойчивости. Подробнее о слиянии этих двух технологий мы поговорим в следующей статье.



Рис. 5. Совместное использование SAN и NAS. Пользователь любой платформы имеет доступ ко всем данным.


© Copyright "СТОРУС" 2003 - 2017