Проверяйте все. Ничего не рискуйте. Обновляйте с уверенностью.
Примечание: в Rediacc еще нет производственных клиентов. Это пример использования, демонстрирующий, как архитектура справляется с этим сценарием на практике, а не тематическое исследование реального развертывания.
Кризисный сценарий: Во время обновления базы данных произошла неожиданная ошибка, не позволившая вернуться к старой версии или перейти к новой. Клиенты не могли получить доступ к системам, а более 5000 сотрудников не могли работать. Единственным выходом было полное восстановление системы, потребовавшее часов работы инженеров, пока бизнес был в режиме простоя.
Проблема
Мехмет управляет производственными базами данных, которые его команда не может позволить себе отключать. Сегодня он обновляет базу данных PostgreSQL объемом 100 ТБ с версии 13 на 14. Его план:
- Создать резервную копию → Однако резервное копирование занимает несколько дней из-за размера данных
- Выполнить обновление на выходных → Отделы уведомляются об отключении в субботу с 01:00 до 05:00
Влияние кризиса
- Во время обновления возникает неожиданная ошибка
- База данных не может ни вернуться к старой версии, ни перейти к новой версии
- Даже внешние группы поддержки не могут решить проблему
Воздействие:
- Клиенты не могут получить доступ к системам оплаты и заказа
- Сотрудники компании (5000+ человек) не могут работать
- Начинается потеря репутации и рост количества жалоб
Временное решение:
- Последняя резервная копия загружается на новый сервер → Стоимость оборудования удваивается
- Данные четверга и пятницы доступны только в реальной среде, поэтому происходит потеря данных
- Создаются две базы данных с разными версиями → Несоответствия увеличиваются
Решение Rediacc
Вот что меняется с Rediacc:
1. Мгновенное клонирование
- Клон базы данных размером 100 ТБ создается за считанные секунды
- Тесты обновления выполняются без влияния на работающую систему
2. Ежечасные снимки
- В процессе обновления определяется какой этап с какого момента произошел сбой
- Проблемные операции выявляются заранее и исправляются
3. Бесшовное обновление
- Если обновление не удастся, на рабочую среду это не повлияет
- Если обновление пройдет успешно, новая живая среда станет последним клоном
Результат
Экономия времени и средств:
- Время резервного копирования сокращено с 7 дней до 10 секунд
Обновление без риска:
- Ошибки были обнаружены заранее в тестовой среде → В работающей системе проблем нет
Нулевое время простоя:
- Клиенты и сотрудники не ощущали сбоев