Искусственный интеллект

Единый цикл. Как в RAMAX Group внедрили платформу для разработки AI-моделей

28 декабря 2024

7 минут

Поделиться в соцсетях

Единый цикл. Как в RAMAX Group внедрили платформу для разработки AI-моделей

RAMAX Group работает на российском рынке более 30 лет. Консорциум объединяет системных интеграторов и разработчиков и каждый год реализует свыше 50 крупных ИТ-проектов. В штате — 700 сотрудников.

Рассказываем, зачем компания решила разработать платформу для управления жизненным циклом ML-моделей (англ. machine learning — «машинное обучение») и к каким результатам это привело.

Проблема

Одно из ключевых направлений деятельности технологического консорциума — разработка и эксплуатация ML-моделей и AI-сервисов на их основе для бизнес-заказчиков из разных отраслей.

Однако у компании не было единой ИТ-системы и методологии для управления жизненным циклом ML-моделей. Для каждого проекта разрабатывалась уникальная архитектура таких решений, что приводило к ряду проблем:

существенно увеличивался показатель time to market (ТМТ) — время на создание и запуск продуктов;
возникали сложности при масштабировании AI-решений;
возрастали риски bus factor («фактор автобуса») — уязвимость проекта из-за ухода ключевых участников команды;
рост внутренней экспертизы ограничивался рамками конкретных проектов.

Решение

Разработать и внедрить единую платформу управления жизненным циклом ML-моделей («ML Фаб»), а также развёртывания и эксплуатации ML-сервисов (MLOps). В ходе проекта применялся внутренний опыт сравнения готовых платформ MLOps разных вендоров и использования open-source-продуктов.

Особое внимание нужно было уделить совместному применению решений MLOps и Data Governance — системы управления данными, от которых критически зависит качество ML-сервисов.

Технологии

Платформа «ML Фаб» на базе Kubernetes — программного обеспечения для автоматического управления контейнеризованными приложениями.
Набор open-source-компонентов для MLOps. Реализуют все этапы жизненного цикла ML-моделей, включая их разработку, развёртывание, эксплуатацию и обновление в различных кейсах.
Компоненты управления данными — для повышения эффективности MLOps.
Единый подход к безопасности, включая управление версиями, логирование, авторизацию SSO (от англ. single sign-on — технология единого входа и аутентификации пользователя в нескольких сервисах и приложениях) и управление доступом.
Авторский код развертывания. Значительно упрощает процессы CI/CD (от англ. continuous integration / continuous delivery — непрерывная интеграция и доставка) для платформы, окружений и ML-сервисов.

Сложности

При внедрении платформы нужно было провести масштабную работу по интеграции с существующей системой хранения данных, учесть разнообразные кейсы применения и реализовать единую сквозную методологию управления жизненным циклом ML-моделей.

Для этого:

под жизненный цикл модели был построен пайплайн (последовательность взаимосвязанных шагов): обработка данных, ML-эксперименты, CI/CD, эксплуатация и мониторинг — включает несколько уровней контроля за сервисом;
все артефакты жизненного цикла сохранялись в объектном хранилище класса S3, откуда они были доступны на разных этапах в нужной версии;
для различных кейсов применения были организованы сборки компонентов, использующие единый авторский код развёртывания.

Этапы работы

Апрель — сентябрь 2022 года. Создание MVP (от англ. minimum viable product — «минимально жизнеспособный продукт») платформы для отработки кейсов применения на практике.
Октябрь — декабрь 2022 года. Обучение внутренней команды, переход на единый стандарт работы по ML-проектам.
2023 год. Первые внедрения у заказчика, получение обратной связи и доработки.
Ноябрь 2023 года. Получение патента на платформу.
2024 год. Масштабирование платформы, реализация новых технологических сборок и обновлений (анализ временных рядов, компьютерное зрение, большие языковые модели, федеративное обучение).

Результаты

Кратное снижение показателя time to market на разных этапах жизненного цикла ML-моделей. В частности:

в 10 раз ускорилась подготовка окружения и среды разработки (минуты вместо дней);
в 5—7 раз сократилось время проведения анализа данных благодаря использованию data governance (часы вместо дней);
в 3—5 раз быстрее проходит этап моделирования (дни вместо недель);
в 7—10 раз меньше времени занимает этап развёртывания (часы вместо дней).

Кроме того:

на 30—50% снизились расходы на поддержку ML-сервисов в эксплуатации;
количество инцидентов и степень их влияния на работу систем существенно сократились (минимальное число простоев);
значительно уменьшились расходы на обучение новых сотрудников;
исчезли риски bus factor: артефакты процессов вокруг реализованных ML-моделей стали доступными, а сами процессы — легко воспроизводимыми.

Следующие шаги

Компания планирует развивать технологические сборки под различные ML-сервисы и адаптировать решения для заказчиков из нефтегазовой, горнодобывающей и обрабатывающей отраслей промышленности.

Чтобы быть в курсе важных трендов и мнений ведущих экспертов, следите за нами в телеграм-канале. О развитии навыков управления, личностном росте пишем в «Дзене». Про технологии и развитие в IT — в блоге на VC.

AI Технологии

Поделиться в соцсетях

Статья была вам полезна?

Да

Нет