Проектирование системы мониторинга и логирования Kafka-кластеров
В рамках работы над проектом ЦУМ была выполнена настройка и поддержка кластеров Kafka, а также спроектированы и внедрены системы мониторинга и логирования для обеспечения стабильной работы потоковой платформы.
О клиенте
ЦУМ — крупный розничный ритейлер, продающий одежду, обувь, сумки и аксессуары более 700 модных брендов с доставкой по всей России.
Описание задачи
Клиенту требовалось обеспечить стабильную работу существующих Kafka-кластеров и внедрить инструменты для оперативного мониторинга и анализа работы потоковой системы.
Основные проблемы:
Отсутствие централизованной системы мониторинга Kafka-кластеров;
Сложность оперативной диагностики инцидентов;
Недостаточная прозрачность логирования и алертинга;
Риски простоев при росте нагрузки.
Наше решение
Команда MiOps реализовала решение, направленное на повышение стабильности и управляемости Kafka-кластеров:
Настроена и обеспечена поддержка Kafka-кластеров;
Разработана архитектура системы мониторинга с использованием Prometheus Stack;
Настроены метрики и дашборды для оперативного контроля состояния кластеров Kafka;
Внедрена система логирования с использованием Loki;
Произведена автоматизация конфигураций с помощью Ansible.
Результат
В результате работы над проектом была повышена наблюдаемость за Kafka-кластерами и сокращено время реакции на инциденты. Клиент получил прозрачные инструменты мониторинга и логирования, что повысило устойчивость системы.