RAMAX Group работает на российском рынке более 30 лет. Консорциум объединяет системных интеграторов и разработчиков и каждый год реализует свыше 50 крупных ИТ-проектов. В штате — 700 сотрудников.
Рассказываем, зачем компания решила разработать платформу для управления жизненным циклом ML-моделей (англ. machine learning — «машинное обучение») и к каким результатам это привело.
Проблема
Одно из ключевых направлений деятельности технологического консорциума — разработка и эксплуатация ML-моделей и AI-сервисов на их основе для бизнес-заказчиков из разных отраслей.
Однако у компании не было единой ИТ-системы и методологии для управления жизненным циклом ML-моделей. Для каждого проекта разрабатывалась уникальная архитектура таких решений, что приводило к ряду проблем:
- существенно увеличивался показатель time to market (ТМТ) — время на создание и запуск продуктов;
- возникали сложности при масштабировании AI-решений;
- возрастали риски bus factor («фактор автобуса») — уязвимость проекта из-за ухода ключевых участников команды;
- рост внутренней экспертизы ограничивался рамками конкретных проектов.
Решение
Разработать и внедрить единую платформу управления жизненным циклом ML-моделей («ML Фаб»), а также развёртывания и эксплуатации ML-сервисов (MLOps). В ходе проекта применялся внутренний опыт сравнения готовых платформ MLOps разных вендоров и использования open-source-продуктов.
Особое внимание нужно было уделить совместному применению решений MLOps и Data Governance — системы управления данными, от которых критически зависит качество ML-сервисов.
Технологии
- Платформа «ML Фаб» на базе Kubernetes — программного обеспечения для автоматического управления контейнеризованными приложениями.
- Набор open-source-компонентов для MLOps. Реализуют все этапы жизненного цикла ML-моделей, включая их разработку, развёртывание, эксплуатацию и обновление в различных кейсах.
- Компоненты управления данными — для повышения эффективности MLOps.
- Единый подход к безопасности, включая управление версиями, логирование, авторизацию SSO (от англ. single sign-on — технология единого входа и аутентификации пользователя в нескольких сервисах и приложениях) и управление доступом.
- Авторский код развертывания. Значительно упрощает процессы CI/CD (от англ. continuous integration / continuous delivery — непрерывная интеграция и доставка) для платформы, окружений и ML-сервисов.
Сложности
При внедрении платформы нужно было провести масштабную работу по интеграции с существующей системой хранения данных, учесть разнообразные кейсы применения и реализовать единую сквозную методологию управления жизненным циклом ML-моделей.
Для этого:
- под жизненный цикл модели был построен пайплайн (последовательность взаимосвязанных шагов): обработка данных, ML-эксперименты, CI/CD, эксплуатация и мониторинг — включает несколько уровней контроля за сервисом;
- все артефакты жизненного цикла сохранялись в объектном хранилище класса S3, откуда они были доступны на разных этапах в нужной версии;
- для различных кейсов применения были организованы сборки компонентов, использующие единый авторский код развёртывания.
Этапы работы
- Апрель — сентябрь 2022 года. Создание MVP (от англ. minimum viable product — «минимально жизнеспособный продукт») платформы для отработки кейсов применения на практике.
- Октябрь — декабрь 2022 года. Обучение внутренней команды, переход на единый стандарт работы по ML-проектам.
- 2023 год. Первые внедрения у заказчика, получение обратной связи и доработки.
- Ноябрь 2023 года. Получение патента на платформу.
- 2024 год. Масштабирование платформы, реализация новых технологических сборок и обновлений (анализ временных рядов, компьютерное зрение, большие языковые модели, федеративное обучение).
Результаты
Кратное снижение показателя time to market на разных этапах жизненного цикла ML-моделей. В частности:
- в 10 раз ускорилась подготовка окружения и среды разработки (минуты вместо дней);
- в 5—7 раз сократилось время проведения анализа данных благодаря использованию data governance (часы вместо дней);
- в 3—5 раз быстрее проходит этап моделирования (дни вместо недель);
- в 7—10 раз меньше времени занимает этап развёртывания (часы вместо дней).
Кроме того:
- на 30—50% снизились расходы на поддержку ML-сервисов в эксплуатации;
- количество инцидентов и степень их влияния на работу систем существенно сократились (минимальное число простоев);
- значительно уменьшились расходы на обучение новых сотрудников;
- исчезли риски bus factor: артефакты процессов вокруг реализованных ML-моделей стали доступными, а сами процессы — легко воспроизводимыми.
Следующие шаги
Компания планирует развивать технологические сборки под различные ML-сервисы и адаптировать решения для заказчиков из нефтегазовой, горнодобывающей и обрабатывающей отраслей промышленности.
- Чтобы быть в курсе важных трендов и мнений ведущих экспертов, следите за нами в телеграм-канале. О развитии навыков управления, личностном росте пишем в «Дзене». Про технологии и развитие в IT — в блоге на VC.