Инфраструктура мониторинга и observability в проде | Вопросы для собеседования

DevOps Средний Опубликовано

Инфраструктура мониторинга и observability в проде

Вопрос:

Какие инструменты мониторинга и логирования вы используете?

Как вы настраиваете оповещения и агрегацию логов для эффективного обнаружения проблем?

Подсказки:

Подумайте об инструментах, таких как Prometheus, VictoriaMetrics, Grafana или ELK Stack
Подумайте о том, как вы настраивали пороговые значения и правила оповещений
Опишите свой подход к централизованному логированию и анализу логов
Укажите опыт работы с распределённым отслеживанием или визуализацией метрик

Выше ожиданий:

Ответ:

Инструменты Мониторинга

Prometheus: База данных временных рядов для сбора метрик с архитектурой pull. Отлично подходит для сбора и хранения числовых метрик с высокой надёжностью. Наиболее часто используется.
VictoriaMetrics: Высокопроизводительная и масштабируемая альтернатива Prometheus с лучшими возможностями долгосрочного хранения и меньшим потреблением ресурсов.
Grafana: Средство визуализации для создания дашбордов отображения метрик из различных источников данных. Поддерживает алерты и аннотации.
Datadog/New Relic: SaaS-решения для мониторинга, предоставляющие комплексный мониторинг всех уровней приложения с минимальными затратами на настройку.

ELK Stack (Elasticsearch, Logstash, Kibana): Стандарт отрасли для агрегации, обработки и визуализации логов.
Loki: Система агрегации логов, разработанная для экономичности, индексируя метаданные, а не полный текст.
Fluentd/Fluent Bit: Сборщики логов, объединяющие сбор и потребление данных, поддерживающие несколько пунктов назначения.

Настроить правила оповещения на основе симптомов, а не причин (например, оповещать о высоком уровне ошибок, а не о конкретных типах ошибок)
Реализовать многоуровневые оповещения с различной степенью серьезности (warning vs critical)
Использовать alert manager для обработки маршрутизации, группировки и исключения дублирования

Определить и отслеживать SLO (Service Level Objectives) и отслеживать SLI (Service Level Indicators)
Настроить централизованное логирование со структурированными логами
Создать собственные экспортеры для метрик, специфичных для приложения
Разработать панели управления, организованные по сервисам и пользовательским путям, чтобы на основе их данных сразу понимать как надо действовать
Использовать sampling логов для высоконагруженных сервисов, чтобы снизить затраты на хранение