Главная
Большие языковые модели (LLM) доказали свою полезность в общении с человеком. С их помощью можно общаться с клиентами, готовить черновики документов и даже исправлять ошибки в программных кодах. Однако они задействуют много вычислительных ресурсов, поэтому большие лингвистические модели обычно помещают в высокопроизводительные ЦОД, а доступ к ним организуют через API и веб-интерфейс. Если же возникает потребность развернуть LLM на борту, например, автомобиля, чтобы организовать его общение с водителем, то ресурсов может и не хватить. Для решения таких узкоспециализированных задач правильнее использовать небольшие большие языковые модели.
Для упрощённых LLM принято использовать термины «дистиллированные модели» (distilled models) или «легковесные модели» (lightweight models). Методы дистиллирования моделей позволяют за счёт снижения универсальности диалогов обеспечить работу LLM в условиях ограниченных ресурсов, не теряя качество решаемой задачи.
Большие языковые модели, такие как GigaChat, ChatGPT и другие, представляют собой массив вероятностей различных словосочетаний для всех используемых в языке слов. Однако в русском языке есть неиспользуемые словосочетания, например два подряд стоящих союза — «а» и «но». Поэтому если подробно рассмотреть сформированные LLM, то в них можно заметить огромные пустоты с практически нулевыми значениям вероятности перехода. Поэтому для дистилляции используются два метода: удаление отдельных нейронов (в LLM — связей между словами) и целых нейронных слоев (для LLM — одно слово со всеми его связями). Эти методы позволяют убрать «невероятные сочетания» и сделать модель легче без потери качества для конкретного применения.
Как говорит Дмитрий Медведев, директор департамента прикладных решений компании «Ланит-Терком», дистиллированные или упрощённые LLM используют многие известные компании. Их применяют для решения задач, требующих сокращения вычислительных мощностей при сохранении высокой эффективности LLM. «Можно выделить несколько направлений, где использование упрощённых LLM оправдано и зачастую необходимо: мобильные устройства, IoT (internet of things), системы безопасности и видеонаблюдение», — отмечает эксперт. Директор по искусственному интеллекту Сбер Бизнес Софт Максим Иванов добавляет, что дистиллированные модели применяются также для анализа отзывов и комментариев, суммаризации, подготовки выводов, классификации, оптимизации работы с документами.
Сейчас технологий генеративного искусственного интеллекта развиваются с большой скоростью, поэтому специалисты стремятся приспособить их для решения самых разнообразных бизнес-задач, например для анализа финансовых документов, подготовки черновиков деловой переписки или общения с клиентами (CRM).
Конечно, их можно реализовать в виде веб-сервисов, однако утечка сгенерированных с их помощью данных может оказаться слишком чувствительной для бизнеса. Поэтому генеративные сервисы такого рода лучше размещать в собственных ЦОД. И в этом случае стоит использовать как раз дистиллированные модели. Их можно адаптировать для решения узкоспециализированных или отраслевых задач.
В частности, перспективными считаются¹ оптимизированные LLM-продукты, которые позволяют достаточно точно автоматизировать решение важных задач. К примеру, их можно использовать в финансовом секторе для анализа официальных отчётов компании или проверки договоров. Такие специализированные модели уже появляются.
Например, Bloomberg разработал специализированную модель BloombergGPT для проведения первичного анализа финансовой документации. Специалисты компании разметили большое количество финансовых документов и обучили с их помощью модель с 50 млрд параметров. Её планируется использовать для анализа финансовой отчётности компаний и оценки их инвестиционной привлекательности.
Интересными для компаний могут оказаться и узкоотраслевые модели. Например, ведущие корпоративный документооборот: готовящие черновики договоров, маркетинговых отчётов, ответов на запросы клиентов. Целое семейство подобных моделей под названием ACE LLM выпустила в прошлом году компания Gupshup. Она подготовила дисциплинированные модели с количеством параметров до 70 млрд для таких отраслей, как банковское дело, розничная торговля, ЖКХ и другие.
Ещё одним примером удачного продукта на основе упрощённых LLM-решений являются сервисы китайского разработчика Alibaba Group, которые базируются на открытой языковой модели Llama 2. Они получили наименование Qwen-7B и Qwen-7B-Chat и предназначены для автоматизации взаимодействия с клиентами (CRM). Это решения с открытым исходным кодом, которые позволяют пользователям автоматизировать общение через электронную почту и мессенджеры. Модель владеет 7 млн параметров, но её можно и дообучить под конкретную отрасль или особенности бизнеса.
В России дистиллированные модели имеют более практическое применение. «В нашей компании есть несколько успешных примеров использования дистиллированных LLM, — рассказывает Дмитрий Медведев из “Ланит-Терком”. — Решения, в частности, связаны с мобильными устройствами, где данный подход позволяет снизить потребление ресурсов (вычислительные мощности, использование батареи устройства), при этом не ограничивая пользователей в возможностях использования LLM. Наши решения по генерации документов, контролю контекста и исправлению текстовых файлов успешно работают на мобильных устройствах в офлайн-режиме, показывая высокую скорость работы и точность даже при отсутствии интернет-соединения. Это позволяет пользователям эффективно использовать функционал LLM независимо от местоположения и доступности сети».
Андрей Масолович, президент АО «Инфорус», также привёл пример практического использования дистиллированного использования для LLM: построения роевого интеллекта с помощью генеративных моделей, расположенных на борту дронов, и решения с помощью такого роя распределённых задач. Понятно, что полноценную LLM на борт дрона разместить затруднительно, поэтому эффективнее для этого использовать именно дистиллированную LLM.
Максим Иванов,
Директор по искусственному интеллекту Сбер Бизнес Софт:
Мы использовали в качестве основы модель bert-multilingual, дистиллировали её (учителями для дистилляции были RuBert, LaBse, Laser): rubert-tiny2 для получения эмбеддингов при разработке RAG модели². Мы делаем векторное представление текста для корректной работы нашего поискового механизма в векторной базе данных. Это позволяет нам быстро находить максимально релевантные запросу пользователя фрагменты документов в нашей базе данных и подавать их в качестве контекста в LLM (это основной принцип работы RAG).
Нам это дало возможность получить эмбеддинги быстро, локально, на минимальных мощностях CPU (без затрат на GPU).
«Про дистиллированный AI — идея классная, давно напрашивается, — отмечает Андрей Масалович. — Сейчас стоит вопрос в наработках по построению таких сетей для разных задач».
В целом небольшие большие языковые модели — это метод практического использования в бизнесе технологий искусственного интеллекта. Они позволяют решать задачи работы с текстами как для их анализа, так и подготовки документов, которые строятся по определённым правилам. Для российских компаний, которые испытывают дефицит квалифицированных кадров, использование искусственного интеллекта в том числе и в виде дистиллированных моделей может оказаться вариантом быстрого накопления необходимых компетенций.
Источники
¹
https://sberlabs.com/common/assets/sberlabs/nauka-2023.pdf?ysclid=lx1gnfger251089924 стр. 44
²
RAG (Retrieval Augmented Generation — генерация с дополненной выборкой) — это метод расширения пользовательского промта дополнительными знаниями о контексте самого запроса, которые все вместе подаются на вход LLM-модели.
Напишите нам и менеджеры свяжутся с вами