up index search

   UP: 6.1 Технические средства сетевой безопасности

6.1.1 Резервное копирование, дедубликация, катастофоустойчивость
Семенов Ю.А. (ГНЦ ИТЭФ)

Ленточные накопители и диски
Дедубликация
Катастрофоустойчивость

Проблему резервного копирования (backup) никак нельзя признать новой. В какой-то мере во времена ненадежных дисков она была даже острее. Но несколько инцидентов с потерей лаптопов и портфелей, где лежали резервные копии данных о миллионах кредитных карт неожиданно актуализовали эту задачу, переведя ее в плоскость сохранности информации. Рост объемов данных проявил еще одну грань этой проблемы. Еще одной темой резервного копирования стала проблема дедубликации. Резервное копирование является необходимым элементоv систем восстановления в случае аварии или сетевого вторжения (DR).

Причины резервного копирования известны всем. Если что-то случится, надо иметь копию, с которой можно восстановить содержимое файлов (программ, текстов, рисунков, мультимедиа). Понятно, что чем чаще производится резервное копирование, тем лучше. Но частое копирование требует слишком большого объема ресурсов системы. По этой причине обычно приходится идти на компромисс. На рис. 1 представлено распределение процентов потерь данных для разных источников.

Средняя персональная машина хранит в себе около 4000 файлов, что делает резервное копирование крайне актуальным. Причем число файлов на компьютере имеет тенденцию к быстрому росту. Смотри тематический депозитарий и в частности статью "A New Era for Backup – Time to Replace Traditional (Dying) Methods" компании Commvault.

Рис. 1. Вклад различных причин в потери информации.

Из рисунка следует, что основной вклад в потери данных вносят отказы оборудования (40%), человеческий фактор (29%) и сбои программ. По мере роста объемов данных проблема резервного копирования усложняется. Процедура требует все больше ресурсов и времени, становися сопряжена с большим риском. Компании тратят 73% своего бюджета на поддерждание существующей инфраструктуры и приложений. Все чаще резервное копирование производится с привлечением облачных технологий. Резервное копирование интегрируется с все более сложными программами восстановления конфигурации после отказа или сетевой атаки.

Резервное копирование бывает полным и инкрементным. В первом случае копироются все носители, даже если с момента последнего backup ничего не менялось Инкрементный вариант более сложен, зато несравненно более экономен. Здесь копируются только те блоки данных, которые были изменены с момента предыдущего резервного копирования. Понятно, что в этом случае нужно как-то идентифицировать блоки информации.

Раньше для целей backup использовались исключительно магнитные ленты (картриджи) с автоматикой их замены. Сегодня для этой цели могут служить также жесткие диски высокой емкости, DVD и blueray. За последние 10 лет емкость жестких дисков вырасла с 40ГБ до 4 и более ТБ (удвоение каждые полтора года). При этои стоимость одного драйва оставалась практически неизменной. Стоимость лент LTO из расчета на ТБ имела примерно тот же порядок. Технология дедубликации существенно понизила требования на емкость устройств резервного копирования. Ленточные устройства имеют то преимущество, что практичеки лишены огранияений на емкость (всегда можно завести некоторое количество дополнительных картриджей). Но по времени доступа жесткие диски остаются вне конкуренции, что позволяет осуществить восстановление системы при аварии почти в реальном масштабе времени..

На персональных машинах резервное копирование производит обычно ее владелец, на серверах и в сетях для этой цели используются специальные программы.

Требования сохранности информации вынуждают записывать резервные копии данных с привлечением криптографических методов (например, AES 256 бит). Для системных и любых стандартных программ это требование не является обязательным. Чтобы минимизировать объем носителя перед копированием осуществляется архивация (сжатие данных). Смотри Backup Express Release 3.0. Technical Specifications, а также Lowering Storage Costs with the World's Fastest Tape Drive. An Oracle White Paper, February 2011. Емкость - один экзабайт (миллион терабайт), скорость записи 240 МВ/с.

Ленточные накопители и диски

Появились ленточные ЗУ с объемом 5 ТБ. Сопоставим это с тем, что в 2005 году были доступны ЗУ с емкостью лишь 500 ГБ. Десятикратный рост емкости за 6 лет! Скорость обмена для этих ленточных накопителей составляет 240 МБ/сек.

Ниже на рис. 2 приведены сравнительные данные по энергопотреблению различных систем резервного копирования. На рис. 2 сравниваются объемы памяти различных backup-систем.

Рис. 2. Сравнение энергопотребления различных backup-систем.

Рис. 3. Максимальный объем одной библиотеки, базирующейся на магнитной ленте.

Устройство записи резервной копии и место ее хранения может находиться достаточно далеко от компьютера, что обеспечивает катасрофоустойчивость, но данные могут выходить в сеть только в зашифрованном виде, чтобы исключить перехват. Отдельную проблему может в этом случае представлять хранение криптоключей. В последнее время в системах резервного копирования часто используется аппаратное шифрование/дешифрование. При использовании криптографии происходит неизбежная потеря скорости копирования. Смотри также CA ARCserve Backup r12 - Security или acronis.

В сфере резервного копирования возникло новое направление бизнеса - удаленное предоставление этой услуги. При этом предоставляется не просто место на диске или на ленте, а целый список услуг в рамках технологии SaaS (Software as a Service). Так как передаются и пишутся на носитель зашифрованные данные с применением контрольного суммирования, угрозы потери информации не существует (смотри White Paper: MozyEnterprise Powered by EMC Fortress Secure Online backup for the Enterprise). Программа позволяет определить время резервного копирования и отследить состояние процесса, а также выполнить восстановления исходных данных, если это требуется.

Следует иметь в виду, что используя технологию SaaS нужно применять дополнительные меры безопасности. Примером такого решения может служить программный пакет компании Qualys (смотри Strenthening Network Security with On Demand Vulnerability Management and Policy Compliance рис. 4). Все коммуникации здесь осуществляются с привлечением протокола SSL.

Рис. 4. Архитектура QualysGuard SaaS для управления безопасностью

В настоящее время во весь рост встала проблема унификации оборудования и алгоритмов резервного копирования в мировом масштабе.

Начиная с 2012 года сформировалась тенденция постепенного перехода при резервном копировании с ленточных устройств на диски (D2D) ("Turning the Tables on Tape. Survey reveals a steady transition away from tape backup". InfoWorld Custom Solutions Group). См. рис. 5.

Рис. 5. Используемые технологии резервного копирования

Отсутствие или неэффективность системы резервного копирования вызывают самые разные последствия (см. рис. 6).

Рис. 6. Последствия потери информации

Противостояние технологий резервного копирования, базирующихся на лентах и дисках продолжается (см. "Tape versus disk: The backup war exposed" By Chris Poelker). Проводится сопоставление цен и рабочих характеристик современных систем резервного копирования, смотри рис. 7 (LTO - Linear Tape-Open; VTL - Virtual tape library). Из рисунка видно, что ленточные устройства по соотношению цена-качество постепенно теряют лидерство особенно при больших объемах информации (> 10Tбайт/час).

Рис. 7. Сопоставление ленточных и дисковых систем резервного копирования

На рис. 8 показаны доли бюджета, выделяемые на целе резервного копирования и восстановление системы после аварии (DR). Национальная принадлежность определяется суффиксом, который используется в DNS-именах.

Рис. 8. Доли бюджета, выделяемые для задач резервного копирования и восстановления в разных странах

Дедубликация

Стремление повысить эффективность резервного копирования породило технику дедубликации. Ведь любой из нас знает, что на его персональном компьютере многие файлы содержатся в нескольких копиях, а существует еще часто множественные копии модифицированных документов. Дедубликация позволяет исключить как полные копии, так и идентичные фрагменты, существенно сэкономив требуемый объем носителя. Дедубликация может сократить нужный объем носителя до 90%. Эта технология ускоряет резервное копирование и восстановление, удешевляет издержки и упрощает систему. На рис. 9 поясняется механизм работы этой технологии.

Рис. 9. Результат дедупликации

Для обеспечения эффективности дедубликации формируется соответствующая структура данных. Смотри "How Data Deduplication Works" (FalconStor Software, является патентовладельцем технологии, описанной ниже). Файл разбивается на сублоки данных, для каждого из которых вычисляется хэш (контрольная сумма) (см. рис. 10). Если хэши блоков равны, то с большой вероятностью и блоки идентичны. Формируется индекс информационных блоков. Если новый блок уже имеется в репозитарии индексированных блоков, то этот блок заменяется его индексным указателем. Если же блок уникален, он заносится в репозитарий, а его индекс записывается в память для сравнениями с хэшами последующих блоков.

Рис. 10. Схема реализации дедупликации

Технология не зависит от технических средств резервного копирования, она не требует завершения процесса резервного копирования и может осуществляться в параллель. Запросы приложений могут обслуживаться одновременно с процессом дедубликации. Чтобы исключить случайное совпадение хэшей (что, само по себе, крайне мало вероятно), хэши могут вычисляться по алгоритмам MD5 и SHA-1 (160-битный хэш), а сверка производиться для обих хэшей. Каждый файл может снабжаться мета-заголовком (см. рис. 11).

Рис. 11. Структура данных при дедубликации

Для алгоритма SHA-1 вероятность случайного совпадения хэшей при обработке массива в 16 петабайт составляет 10-24, что с практической точки зрения имеет пренебрежимую малость.

Резервное копирование является базисом для восстановления конфигурации (DR) компьютера в случае выхода из строя системного диска или успешной атаки хакера. К сожалению пока не создано стандартного инструментария для восстановления системы после авариии. Не выработано единого стандарта и для резервного копирования (см. рис. 12).

Рис. 12. Среднее число используемых систем резервного копирования из расчета на организацию

Катастрофоустойчивость

Экспоненциальный рост объемов данных (см. раздел "Рост информационных объемов" делает сохранность информации, пожалуй, одной из главных проблем. Одним из методов сохранения данных безусловно является резервное копирование. Но, если резервные копии хранить в помещении вычислительного центра, то в случае, например, пожара или другого стихийного бедствия могут быть потеряны все копии. Катастрофоустойчивое копирование позволяет решить и эту проблему. Этот метод предполагает, что копирование производится на носитель, размещенный в другом здании или даже другом городе.

Современные системы резервного копирования предлагают много дополнительных сервисов, включая информационную безопасность (см. рис. 13).

Рис. 13. Структура современной системы резервного копирования

Резервное копирование и эффективное восстановление требуют нескольких уровней (см. "The correct levels of backup save time, bandwidth, space", W. Curtis Preston, Sep 5, 2018). Полное резервное копирование предполагает копирование всех файлов как в случае Windows, так и Linux/Unix. Администраторы могут исключить некоторые каталоги из копироавния, например, /boot или /dev, а также \TEMP или /tmp. Инкрементное резервное копирование предполагает спасение тех файлов, которые были изменены после последнего backup. Но такой подход приводит к копированию 10-гигабайтного файла, когда в нем был изменен лишь 1Мбайт. Более эффективен дифференциальный метод копирования, когда спасаются лишь изменения. С точки зрения резервного копирования дисковая схема представляется более эффективной, так как позволяет использовать дедубликацию.

На рис 14 представлена динамика российского рынка BaaS-DRaaS ("Data Backup Software Market Manufacturers Analysis Report From 2019 To 2024", Hashtap, 16 December 2019)

Рис. 14. Динамика российского рынка BaaS-DRaaS. Прогноз до 2022г в млрд. рублей. CAGR - Compound Annnual Growth Rate.

На рис. 15 динамика рынка средств резервного копирования в мире на период 2013-2024 годы (в млн. долларов США).

Рис. 15. Прогноз мирового рынка средств backup на 2013-24гг в млн. долларов

Хотя тема резервного копирования остается актуальной уже многие годы, время от времени появляются новые продукты и разработчики (см. "14 leading data backup software tools of 2020", Chris Evans, 23 Jul 2020). Наиболее быстро развивается сектор резервного копирования в облаках (SaaS). Ниже приведен список наиболее популярных продуктов.

Любая новая стратегия резервного копирования будет базироваться на облачных технологиях, т.о. вы через 5 лет, вероятно, будете менее вовлечены в работы по резервному копированию, чем сегодня. Поставщики облачных приложений могут и не хотеть быть вовлеченными в бизнес резервного копирования и восстановления, по этой причине облачные приложения, которые могут осуществлять резервное копирование -- такие как Office 365 и Salesforce - по-прежнему будут востребованы.

Исследования показали, что внедрение элементов ИИ в систему резервного копирования позволяют поднять ее быстродействие в режиме восстановления и планирования (см. "Backup and AI work together to enhance protection", Paul Kirvan, 29 Oct 2020). На рис. 16 показана схема использования ИИ в системе резервного копирования.

Рис. 16. Внедрение ИИ в сервисы резервного копирования

Компания IDC сформулировала прогноз на 2025 относительно объемов данных, связанный с потребностями в системах резервного копирования:


Рост числа атак ransomware, начиная с конца 2020 года делает системы резервного копирования особенно актуальными, смотри "Ransomware and backup: Overcoming the challenges", Stephen Pritchard, 12 Jul 2022) . Средства резервного копирования остается надежным механизмом восстановления после атаки ransomware. Определенный интерес представляет также статья "Backup maintenance: Five key points to consider", Stephen Pritchard, 29 Jun 2022.

   UP: 6.1 Технические средства сетевой безопасности