up index search
   UP: 6.1 Технические средства сетевой безопасности

6.1.1 Резервное копирование, дедубликация, катастофоустойчивость

Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Ленточные накопители и диски
Дедубликация
Катастрофоустойчивость

Проблему резервного копирования (backup) никак нельзя признать новой. В какой-то мере во времена ненадежных дисков она была даже острее. Но несколько инцидентов с потерей лаптопов и портфелей, где лежали резервные копии данных о миллионах кредитных карт неожиданно актуализовали эту задачу, переведя ее в плоскость сохранности информации. Рост объемов данных проявил еще одну грань этой проблемы. Еще одной темой резервного копирования стала проблема дедубликации. Резервное копирование является необходимым элементоv систем восстановления в случае аварии или сетевого вторжения (DR).

Причины резервного копирования известны всем. Если что-то случится, надо иметь копию, с которой можно восстановить содержимое файлов (программ, текстов, рисунков, мультимедиа). Понятно, что чем чаще производится резервное копирование, тем лучше. Но частое копирование требует слишком большого объема ресурсов системы. По этой причине обычно приходится идти на компромисс. На рис. 1 представлено распределение процентов потерь данных для разных источников.

Средняя персональная машина хранит в себе около 4000 файлов, что делает резервное копирование крайне актуальным. Смотри тематический депозитарий и в частности статью "A New Era for Backup – Time to Replace Traditional (Dying) Methods" компании Commvault.

Рис. 1. Вклад различных причин в потери информации.

Из рисунка следует, что основной вклад в потери данных вносят отказы оборудования (40%), человеческий фактор (29%) и сбои программ. По мере роста объемов данных проблема резервного копирования усложняется. Процедура требует все больше ресурсов и времени, становися сопряжена с большим риском. Компании тратят 73% своего бюджета на поддерждание существующей инфраструктуры и приложений. Все чаще резервное копирование производится с привлечением облачных технологий. Резервное копирование интегрируется с все более сложными программами восстановления конфигурации после отказа или сетевой атаки.

Раньше для целей backup использовались исключительно магнитные ленты (картриджи) с автоматикой их замены. Сегодня для этой цели могут служить также жесткие диски высокой емкости, DVD и blueray. За последние 10 лет емкость жестких дисков вырасла с 40ГБ до 4 и долее ТБ (удвоение каждые полтора года). При этои стоимость одного драйва оставалась практически неизменной. Стоимость лент LTO из расчета на ТБ имела примерно тот же порядок. Технология дедубликации существенно понизила требования на емкость устройств резервного копирования. Ленточные устройства имеют то преимущество, что практичеки лишены огранияений на емкость (всегда можно завести некоторое количество дополнительных картриджей). Но по времени доступа жесткие диски остаются вне конкуренции, что позволяет осуществить восстановление системы при аварии почти в реальном масштабе времени..

На персональных машинах резервное копирование производит обычно ее владелец, на серверах и в сетях для этой цели используются специальные программы.

Требования сохранности информации вынуждают записывать резервные копии данных с привлечением криптографических методов (например, AES 256 бит). Для системных и любых стандартных программ это требование не является обязательным. Чтобы минимизировать объем носителя перед копированием осуществляется архивация (сжатие данных). Смотри Backup Express Release 3.0. Technical Specifications, а также Lowering Storage Costs with the World's Fastest Tape Drive. An Oracle White Paper, February 2011. Емкость - один экзабайт (миллион терабайт), скорость записи 240 МВ/с.

Ленточные накопители и диски

Появились ленточные ЗУ с объемом 5 ТБ. Сопоставим это с тем, что в 2005 году были доступны ЗУ с емкостью лишь 500 ГБ. Десятикратный рост емкости за 6 лет! Скорость обмена для этих ленточных накопителей составляет 240 МБ/сек.

Ниже на рис. 2 приведены сравнительные данные по энергопотреблению различных систем резервного копирования. На рис. 2 сравниваются объемы памяти различных backup-систем.

Рис. 2. Сравнение энергопотребления различных backup-систем.

Рис. 3. Максимальный объем одной библиотеки, базирующейся на магнитной ленте.

Устройство записи резервной копии и место ее хранения может находиться достаточно далеко от компьютера, что обеспечивает катасрофоустойчивость, но данные могут выходить в сеть только в зашифрованном виде, чтобы исключить перехват. Отдельную проблему может в этом случае представлять хранение криптоключей. В последнее время в системах резервного копирования часто используется аппаратное шифрование/дешифрование. При использовании криптографии происходит неизбежная потеря скорости копирования. Смотри также CA ARCserve Backup r12 - Security или acronis.

В сфере резервного копирования возникло новое направление бизнеса - удаленное предоставление этой услуги. При этом предоставляется не просто место на диске или на ленте, а целый список услуг в рамках технологии SaaS (Software as a Service). Так как передаются и пишутся на носитель зашифрованные данные с применением контрольного суммирования, угрозы потери информации не существует (смотри White Paper: MozyEnterprise Powered by EMC Fortress Secure Online backup for the Enterprise). Программа позволяет определить время резервного копирования и отследить состояние процесса, а также выполнить восстановления исходных данных, если это требуется.

Следует иметь в виду, что используя технологию SaaS нужно применять дополнительные меры безопасности. Примером такого решения может служить программный пакет компании Qualys (смотри Strenthening Network Security with On Demand Vulnerability Management and Policy Compliance рис. 4). Все коммуникации здесь осуществляются с привлечением протокола SSL.

Рис. 4. Архитектура QualysGuard SaaS для управления безопасностью

В настоящее время во весь рост встала проблема унификации оборудования и алгоритмов резервного копирования в мировом масштабе.

Начиная с 2012 года сформировалась тенденция постепенного перехода при резервном копировании с ленточных устройств на диски (D2D) ("Turning the Tables on Tape. Survey reveals a steady transition away from tape backup". InfoWorld Custom Solutions Group). См. рис. 5.

Рис. 5. Используемые технологии резервного копирования

Отсутствие или неэффективность системы резервного копирования вызывают самые разные последствия (см. рис. 6).

Рис. 6. Последствия потери информации

Противостояние технологий резервного копирования, базирующихся на лентах и дисках продолжается (см. "Tape versus disk: The backup war exposed" By Chris Poelker). Проводится сопоставление цен и рабочих характеристик современных систем резервного копирования, смотри рис. 7 (LTO - Linear Tape-Open; VTL - Virtual tape library). Из рисунка видно, что ленточные устройства по соотношению цена-качество постепенно теряют лидерство особенно при больших объемах информации (> 10Tбайт/час).

Рис. 7. Сопоставление ленточных и дисковых систем резервного копирования

На рис. 8 показаны доли бюджета, выделяемые на целе резервного копирования и восстановление системы после аварии (DR). Национальная принадлежность определяется суффиксом, который используется в DNS-именах.

Рис. 8. Доли бюджета, выделяемые для задач резервного копирования и восстановления в разных странах

Дедубликация

Стремление повысить эффективность резервного копирования породило техникe дедупликации. Ведь любой из нас знает, что на его персональном компьютере многие файлы содержатся в нескольких копиях, а существует еще часто множественные копии модифицированных документов. Дедупликация позволяет исключить как полные копии, так и идентичные фрагменты, существенно сэкономив требуемый объем носителя. Дедупликация может сократить нужный объем носителя до 90%. Эта технология ускоряет резервное копирование и восстановление, удешевляет издержки и упрощает систему. На рис. 9 поясняется механизм работы этой технологии.

Рис. 9. Результат дедупликации

Для обеспечения эффективности дедубликации фармируется соответствующая структура данных. Смотри "How Data Deduplication Works" (FalconStor Software, является патентовладельцем технологии, описанной ниже). Файл разбивается на сублоки данных, для каждого из которых вычисляется хэш (контрольная сумма) (см. рис. 10). Если хэши блоков равны, то с большой вероятностью и блоки идентичны. Формируется индекс информационных блоков. Если новый блок уже имеется в репозитарии индексированных блоков, то этот блок заменяется его индексным указателем. Если же блок уникален, он заносится в репозитарий, а его индекс записывается в память для сравнениями с хэшами последующих блоков.

Рис. 10. Схема реализации дедупликации

Технология не зависит от технических средств резервного копирования, она не требует завершения процесса резервного копирования и может осуществляться в параллель. Запросы приложений могут обслуживаться одновременно с процессом дедубликации. Чтобы исключить случайное совпадение хэшей (что, само по себе, крайне мало вероятно), хэши могут вычисляться по алгоритмам MD5 и SHA-1 (160-битный хэш), а сверка производиться для обих хэшей. Каждый файл может снабжаться мета-заголовком (см. рис. 11).

Рис. 11. Структура данных при дедубликации

Для алгоритма SHA-1 вероятность случайного совпадения хэшей при обработке массива в 16 петабайт составляет 10-24, что с практической точки зрения имеет пренебрежимую малость.

Резервное копирование является базисом для восстановления конфигурации (DR) компьютера в случае выхода из строя системного диска или успешной атаки хакера. К сожалению пока не создано стандартного инструментария для восстановления системы после авариии. Не выработано единого стандарта и для резервного копирования (см. рис. 12).

Рис. 12. Среднее число используемых систем резервного копирования из расчета на организацию

Катастрофоустойчивость

Экспоненциальный рост объемов данных (см. раздел "Рост информационных объемов" делает сохранность информации, пожалуй, одной из главных проблем. Одним из методов сохранения данных безусловно является резервное копирование. Но, если резервные копии хранить в помещении вычислительного центра, то в случае, например, пожара или другого стихийного бедствия могут быть потеряны все копии. Катастрофоустойчивое копирование позволяет решить и эту проблему. Этот метод предполагает, что копирование производится на носитель, размещенный в другом здании или даже другом городе.

Современные системы резервного копирования предлагают много дополнительных сервисов, включая информационную безопасность (см. рис. 13).

Рис. 13. Структура современной системы резервного копирования

   UP: 6.1 Технические средства сетевой безопасности