Заказчик — международная консалтинговая компания, помогает клиентам внедрять новые технологии, выстраивать бизнес-процессы и создавать стратегию развития. В офисах по всему миру работают десятки тысяч сотрудников. Внутри компании используют несколько информационных систем, где хранятся данные о клиентах компании.
Для размещения информационных систем компания арендовала ресурсы в облаке DataLine. Всего на базе дата-центра в Москве развернули 4 виртуальных машины с базами данных. Заказчик обратился в DataLine, чтобы обеспечить высокую доступность приложений и защититься от потери данных.
Свести потери данных к минимуму. В базах данных хранятся ценные сведения о проектах. Если из-за сбоя сотрудники потеряют результаты работы за несколько дней, это обернется убытками для компании. Заказчик расчитал, что допустимо потерять данные максимум за несколько часов работы.
Гарантировать восстановление системы на случай крупных аварий. Нужно было, чтобы сотрудники могли вернуться к работе после аварии любого масштаба. А именно, заказчик хотел сохранить доступ к базам данных даже при полном отказе площадки.
В результате, на старте проекта появилось два важных требования:
- допустимое время потери данных в несколько часов. Его зафиксировали в показателе RPO (Recovery point objective).
- георезервирование — размещение резервных копий на географически разнесенных площадках.
Первоначально компания планировала решить обе задачи за счет резервного копирования.
Группа резервного копирования предложила хранить часть копий на площадке DataLine в Санкт-Петербурге, чтобы обеспечить георезервирование. Специалисты DataLine настроили сетевую связность площадок заказчика для отправки копий из Москвы в петербургский дата-центр. Затем настроили политики резервного копирования раз в сутки и обеспечили нужный RPO.
Бэкап хорошо защищал данные от потери. Первое время объем баз данных был небольшим, и восстановление из бэкапа занимало не больше нескольких часов. Но с ростом базы время на развертывание бэкапа увеличивалось, скорость послеаварийных работ перестала устраивать компанию. Понадобился дополнительный инструмент для быстрого восстановления системы.
Специалисты DataLine предложили протестировать сервис DRaaS (Disaster Recovery as a Service) на базе VMware vCloud Availability (vCAV). Сервис позволяет создавать на удаленной площадке реплики виртуальных машин, которые полностью готовы к запуску. В случае аварии заказчик переключается на реплику в другом городе и продолжает работу с точно такой же виртуальной машиной.
Репликация данных происходит с частотой от 5 минут. Точное время зависит от многих факторов: в первую очередь, от объема изменений и ширины канала. Заказчик самостоятельно может настраивать нужный RPO и количество точек восстановления — сохраненных состояний виртуальной машины. С помощью vCAV можно создать до 24 точек восстановления и затем откатиться к нужной версии.
В решении можно тестировать сценарии восстановления — так сотрудники тренируются в отработке аварийных ситуаций.
Инструкция по настройке восстановления и миграции виртуальных машин. Часть 1
В результате заказчик оставил хранение бэкапов на основной площадке, а задачу георезервирования выполнило решение от VMware.
Для начала работы выбрали пару тестовых виртуальных машин. Специалисты компании сами настроили послеаварийное восстановление: выбрали виртуальную машину, настроили задание на репликацию и сделали полную копию на площадке в Санкт-Петербурге. Показатель RPO по итогам испытаний не превысил 5 минут — целевое значение было перевыполнено в несколько раз. Заказчик убедился, что решение простое для самостоятельной настройки. После этого задания на репликацию создали уже для виртуальных машин с базами данных.
Реплика базы данных находится в другом городе и не зависит от доступности основного хранилища.
У заказчика появилось решение уровня Disaster Recovery, которым можно управлять самостоятельно. Сотрудники компании сами создают задания на репликацию, тестируют защиту и быстро восстанавливают боевые виртуальные машины.