Как бы вы отслеживали производительность и работоспособность развернутого приложения? Под приложением подразумемваем развернутый WEB-сервис и пользуются им через WEB-браузер.
Для такого важно следить за тремя ключевыми группами метрик: метрики инфраструктуры под приложением, метрики доступности приложения, метрики приложения или бизнес-метрики.
Мониторинг инфраструктуры:
- Инструменты: Prometheus, Nagios, Telegraf из-за встроенных в них коллекторов метрик "из коробки, logstash или иной другой агент для сбора логов.
- Метрики: загрузка процессора, потребление памяти, свободно и занято диска, количество операций чтения и записи (IOPs), ошибки и warnings в логах/журналах.
Мониторинг доступности: Инструменты: теже самые, собирают метрики как из самого хоста и из внеших, чтобы проверять доступность извне. Метрики: кол-во не ответов на тестовые запросы, количество ошибок (HTTP код 500 например)
Бизнес-метрики: количество бизнес-транзакций, количество покупок, регистрируемые ошибки в бизнес-логике Инструменты: Datadog, New Relic, другие позволяющие собирать статистику не только с backend, но и frontend. Можно во многом заменить на open source решения, но тогда потребуется разработка подхода для агентов, сбора метрик и событий, создания собственных дашбордов.
Очень хорошо если кандидат расскажет про инструменты и бизнес-метрики, +1 бал сверху. Но это опционально