Архитектура надежных веб-приложений | Вопросы для собеседования

DevOps Средний Опубликовано

Архитектура надежных веб-приложений

Вопрос:

Как обеспечить высокую доступность и надежность веб-приложения?

Как вы подходите к поддержанию доступности сервиса во время неожиданных пиковых нагрузок или отказов?

Подсказки:

Подумайте о стратегиях механизмов failover и дублировании разных компонентов приложения
Подумайте, как балансировка нагрузки и масштабирование способствуют обработке всплеска трафика
Подумайте о том, как вы определите и измерите SLA и целевые показатели времени безотказной работы для приложения

Выше ожиданий:

Понимание паттернов избыточности N+1
Стратегии географического распределения
Circuit breaker, и режимы деградации, которые поддерживают основную функциональность во время частичных сбоев системы

Ответ:

Избыточность: Реализовать избыточность N+1, где N компонентов необходимы для работы системы, а +1 гарантирует наличие резервного компонента и удержание кворума.
Изоляция ошибок: Cбои в одном компоненте не распространяются на другие.
Плавная деградация: Разрешить системам частично функционировать при выходе из строя компонентов.
Географическое распределение: Развернуть систему по нескольким регионам, чтобы противостоять региональным сбоям.

Балансировка нагрузки: Распределять входящий трафик по нескольким серверам с использованием алгоритмов, таких как round robin, наименьшее количество соединений или хеширование по IP.
Масштабирование: Изменять емкость инфраструктуры в зависимости от текущей нагрузки.
Rate limiting: Защищать бэкенды от чрезмерного количества запросов во время пиковых нагрузок.

Circuit breaker: Предотвращать перегрузку системы, временно останавливая запросы к неисправным компонентам.
Retry механизмы: Реализовать экспоненциальное замедление для временных сбоев.
Bulkheads: Изолировать сбойные компоненты системы, чтобы ограничить распространение сбоев.
Health checks: Автоматическая проверка работоспособности компонентов и удалять из активных неисправные экземпляры.

SLI/SLO/SLA: Определить четкие индикаторы уровня доступности сервиса, цели и соглашения.
Проактивный мониторинг: Мониторить ключевые метрики, такие как задержка (latency), частота ошибок (error late) и насыщение (saturation).
Автоматическое восстановление: Реализовать системы самовосстановления, которые восстанавливаются без вмешательства человека.

Репликация: Поддерживать синхронизированные копии баз данных внутри кластера и как отдельный кластер.
Шардирование: Распределять данные по нескольким хостам или кластерам для повышения производительности и устойчивости.
Развертывание в нескольких зонах доступности: Размещать экземпляры баз данных по разным зонам доступности.