Команда SberDevices представила новый инструмент для работы с пайплайнами больших языковых моделей. Проект, представленный на проходящей 23—24 ноября конференции по искусственному интеллекту AI Journey, получил название Molotilka (ML Toolkit for Continuous Learning).
В современном мире поток знаний непрерывен, каждый день происходит множество событий. При обучении большой нейросетевой языковой модели обычно используется срез данных, доступных в интернете или других источниках на текущий момент. Таким образом, модель не будет обладать знаниями о том, что произошло в этом году, если её обучили в прошлом. Для этого и была создана Molotilka, которая обладает актуальными знаниями в каждый момент времени.
В ней реализована автоматизация постоянного дообучения с минимальным забыванием старых знаний. Сервис для использования постоянно дообучаемых при помощи Molotilka больших нейросетевых моделей доступен в Cloud ML Space — платформе для ML-разработки полного цикла. Инструмент позволяет проводить непрерывное обучение языковых моделей с повторением некоторых заранее заданных действий. Таких, например, как скачивание актуальных данных из новостных источников, их предобработка, создание датасета для дообучения языковой модели и её оценка на разных задачах.
ML Toolkit for Continuous Learning может применяться в следующих областях:
● стандартное применение ruGPT-3 как языковой модели, обладающей актуальными знаниями о мире;
● задание кастомизированных задач с постоянным дообучением модели на новых данных: классификация, извлечение информации, диалоговые системы и пр.
«Molotilka — базовый инфраструктурный элемент „электронного мозга фирмы“. Специализированные интернет-краулеры экосистем будущего будут днём и ночью сканировать бездонные просторы всемирной паутины, а мощные тензорные суперкомпьютеры будут постоянно дообучать фермы больших моделей машинного обучения, которые станут интеллектуальным ядром множества продуктов, инструментов и сервисов. При этом на продуктовом уровне возникнет не только возможность опираться на актуальную информацию и тренды, но также и изучать динамику информационного пространства для того, чтобы быстро и качественно принимать важные решения, влияющие на стратегию и тактику компаний на рынке», — пояснил руководитель управления экспериментальных систем машинного обучения SberDevices Сергей Марков.
Источник: Сбер
Что это значит? Власти выделят субсидии на создание агробиотехнопарков — инфраструктурных проектов, нацеленных на улучшение научно-технологического обеспечения сектора.
21 марта
2 мин
Что это значит? Планируется перенести обязательную 100%-ную переработку на 1 января 2027 года.
21 марта
2 мин
Что это значит? По данным исследования АКРА о рынке государственно-частного партнёрства (ГЧП), это максимальный объём вложений с 2018 года.
19 марта
4 мин
Что это значит? С января по середину марта 2023 года объём свободных помещений в логопарках Москвы и Московской области снизился на 26% и достиг 340 000 м².
19 марта
3 мин
Что это значит? Эти деньги пойдут на строительство трёх поликлиник, сети водоотведения и мусорного полигона.
17 марта
2 мин
Что это значит? Совокупный объём рынка в 2023 году оценивается в более 80 млрд рублей. Факторы роста — уникальный контент и продуманная маркетинговая стратегия.
17 марта
2 мин
Да
Нет
Что это значит? Власти выделят субсидии на создание агробиотехнопарков — инфраструктурных проектов, нацеленных на улучшение научно-технологического обеспечения сектора.
21 марта
2 мин
Что это значит? Планируется перенести обязательную 100%-ную переработку на 1 января 2027 года.
21 марта
2 мин
Что это значит? По данным исследования АКРА о рынке государственно-частного партнёрства (ГЧП), это максимальный объём вложений с 2018 года.
19 марта
4 мин
Что это значит? С января по середину марта 2023 года объём свободных помещений в логопарках Москвы и Московской области снизился на 26% и достиг 340 000 м².
19 марта
3 мин
Что это значит? Эти деньги пойдут на строительство трёх поликлиник, сети водоотведения и мусорного полигона.
17 марта
2 мин
Что это значит? Совокупный объём рынка в 2023 году оценивается в более 80 млрд рублей. Факторы роста — уникальный контент и продуманная маркетинговая стратегия.
17 марта
2 мин