Диагностика сбоев контейнеров в Kubernetes | Вопросы для собеседования

/s//s/public

DevOps Средний Опубликовано

@bot

7 месяцев назад

Диагностика сбоев контейнеров в Kubernetes

#Troubleshooting #Docker #Containers #Kubernetes #Observability

Вопрос:

Как бы вы диагностировали и находили решение проблемы с контейнерами в состоянии CrashLoopBackOff?

Можете объяснить ваши подходы как различить ошибки приложения и проблем инфраструктуры?

Подсказки:

Рассмотрите возможность проверки журналов и событий подов с помощью команд kubectl.
Проверить скрипт точки входа (entry point) контейнера и процесс инициализации приложения.
Исследуйте ограничения по ресурсам и конфигурации проб liveness.
Поискать закономерность в тайминге перезапуска и сообщениях об ошибках.

Выше ожиданий:

Понимание хуков состояния жизненного цикла подов и их влияния на запуск контейнера.
Знание init-контейнеров для проверки зависимостей.
В курсе об инструментами отладки контейнеров, таких как crictl.
Опыт работы с контекстами безопасности под и их влиянием на функциональность приложения.

Ответ:

Начальные шаги по расследованию

Проверка статуса и событий подов:
- Использовать kubectl describe pod <имя-подо>, чтобы просмотреть события и статус подов.
- Посмотреть количество перезапусков, последнее состояние и причину завершения.
- Поискать закономерности в времени сбоев (немедленные vs. отложенные сбои).
Анализ журналов контейнера:
- Посмотреть журналы с помощью kubectl logs <имя-пода> -p, чтобы увидеть журналы предыдущих экземпляров контейнера.
- Используйте kubectl logs <имя-подо> --previous, чтобы проверить журналы из сбойного контейнера.
- Поискать сообщения об ошибках, стеки вызовов или сигналы паники.
Ревью спецификаций подов и контейнера:
- Проверить лимиты и запросы (limits and requests) ресурсов — недостаточные CPU/память могут привести к сбоям.
- Проверить конфигурацию проб liveness — излишне агрессивные пробы могут вызывать перезапуски.
- Осмотрите настройки readiness проб — неправильная конфигурация влияет на доступность сервиса.

Различие между проблемами приложения и инфраструктуры

Индикаторы ошибок приложения:

Коды возврата, указывающие на сбой приложения (ненулевые, особенно 1, 2 или 137).
Постоянные ошибки в журналах приложения, показывающие сбои инициализации.
Сбои, происходящие в определённые моменты жизненного цикла приложения.
Сбои, связанные с зависимостями приложения (соединения с базой данных, внешние сервисы).

# Пример: ошибка приложения в логах
$ kubectl logs crashing-pod --previous
Error: could not connect to database at db-service:5432

Индикаторы проблем инфраструктуры:

Причина завершения OOMKilled (недостаточно памяти).
Высокое количество перезапусков в нескольких не связанных подов.
События на уровне узла (node), совпадающие со сбоями.
Ошибки, связанные с монтированием томов, ConfigMaps или Secrets.
Проблемы с сетевой связью между сервисами.

Продвинутые методы отладки

Использование хуков жизненного цикла подо:
- Добавить хуки PostStart для отладки настройки окружения.
- Использовать хуки PreStop, чтобы захватить диагностическую информацию перед завершением.
Реализация контейнеров init для проверки зависимостей:
- Создайте контейнеры init для проверки внешних зависимостей.
- Использовать их для проверки конфигурации перед запуском основного контейнера.
Отладка с помощью временных контейнеров (Kubernetes 1.18+):
- Добавить инструменты отладки в работающие поды без перестройки.
- Получить доступ к пространствам имён контейнеров для более глубокого исследования.
Проверка контекстов безопасности контейнеров:
- Проверьте, совместимы ли настройки runAsUser или runAsGroup с приложением.
- Проверьте, не препятствуют ли настройки securityContext требуемым операциям.
- Ищите требования к привилегированному режиму или проблемы с возможностями.
Использование инструментов контейнерного рантайма:
- Использовать crictl, чтобы проверить состояние контейнера на уровне узла.
- Проверить журналы контейнерного рантайма (containerd или docker).
- Проверить наличие проблем с получением или слоями образов.