Проекты Devops (Девопс), кейсы

Развитие и поддержка промышленной MLOps-платформы

Комплексное сопровождение и масштабирование инфраструктуры жизненного цикла ML-моделей
В рамках проекта команда MiOps обеспечивала развитие и техническую поддержку существующей MLOps-платформы. Работа была сосредоточена на обеспечении стабильности среды для разработки и эксплуатации моделей машинного обучения, а также на внедрении инструментов автоматизации согласно требованиям технического задания.
О клиенте
Крупная технологическая компания, использующая передовые методы машинного обучения для оптимизации бизнес-процессов и создания цифровых продуктов. Платформа является критически важным узлом, объединяющим работу специалистов по данным (Data Scientists), инженеров и аналитиков.
Описание задачи
Основной целью проекта являлось обеспечение непрерывности процессов жизненного цикла ML (ML Lifecycle) и масштабирование существующей платформы для поддержки растущего количества моделей и объемов данных.
Основные задачи проекта:
  • Техническая поддержка и эксплуатация текущих компонентов MLOps-платформы.
  • Развитие функциональных возможностей системы для ускорения вывода моделей в эксплуатацию.
  • Обеспечение высокой доступности сервисов и минимизация рисков при обновлении инструментов.
  • Сопровождение инфраструктуры на всех этапах: от подготовки данных до мониторинга работающих моделей.
Наше решение
Был реализован комплекс мер по поддержке и модернизации платформы:
  • Эксплуатация платформы: Организована круглосуточная поддержка инфраструктуры, обеспечивающая стабильную работу инструментов обучения и инференса.
  • Развитие ML-инструментария: Проведены работы по обновлению и расширению функционала существующих сервисов оркестрации и версионирования.
  • Оптимизация процессов: Настроены пайплайны автоматизации, позволяющие стандартизировать процесс передачи моделей из разработки в production.
  • Мониторинг и сопровождение: Внедрены механизмы контроля качества работы моделей и оперативного оповещения о сбоях в инфраструктуре.
  • Поддержка пользователей: Обеспечено консультационное сопровождение команд разработки по вопросам использования ресурсов платформы.
Результат
Сотрудничество позволило заказчику получить надежную и развивающуюся базу для работы с ИИ-решениями:
  • Обеспечена бесперебойная работа MLOps-платформы в соответствии с заданными параметрами надежности.
  • Реализованы задачи по развитию функционала, заложенные в техническом задании.
  • Повышена общая эффективность работы ML-команд за счет стабильности инструментов и автоматизации рутинных операций.

Технологический стек

KServe, Airflow, Helm, Argo, Istio, MLflow, GitLab, ArgoCD, DVC.