Top.Mail.Ru
СБЕР Про | Медиа
На одном языке: три AI-сервиса, которые упрощают бизнесу работу с текстом
  • ТМТ

На одном языке: три AI-сервиса, которые упрощают бизнесу работу с текстом

  • 6 мин
  • 6 121

«Чтобы искусственный интеллект начал писать тексты вместо человека, нужно, чтобы он смог действительно понимать, о чём пишет. И чтобы он не вздумал заменить словом „мальчик“ слово „ребёнок“» — эту фразу создал сервис генерации текста ruGPT-3 XL. Введённое в программу сообщение-бриф звучало так: «Чтобы искусственный интеллект начал писать тексты вместо человека, нужно…». А остальное дописал алгоритм системы, основанной на нейросетевой технологии.

Разберём, как подобные технологии применять в работе на примере семейства генеративных моделей SberDevices и Sber AI.

Для чего нужны сервисы

Системы искусственного интеллекта могут избавить копирайтера, маркетолога или дата-сайентиста (специалиста, который работает с большими массивами данных) от рутинных задач. Например, они могут создать множество однотипных описаний товара на разных языках, сформулировать несложные рекламные фразы или сделать краткую выжимку из длинного текста.

SberDevices совместно со Sber AI с 2019 года разрабатывает большие нейросетевые модели на базе трансформеров (ruBERT, ruRoBERTa, ruT5 и др.), в том числе относящиеся к семейству GPT (generative pre-trained transformer, генеративный предобученный трансформер) — ruGPT-2, ruGPT-3, а также многоязычную mGPT. На базе этих моделей уже создан ряд продуктовых решений, в том числе AI-Copywriter, о котором СберПро Медиа рассказывали в начале 2022 года. С тех пор SberDevices вывели в открытый доступ новые сервисы: «Рерайтер» и «Суммаризатор».

mGPT

Это многоязычная версия нейросети с архитектурой GPT-3: она достраивает тексты на 61 языке, включая русский, английский, армянский, хинди, тамильский, йоруба, малаялам и других. При построении фразы система учитывает также и культурный контекст. Для обучения модели mGPT, которая содержит 13 млрд параметров, понадобилось 600 Гб открытых данных («Википедия», проза, стихи, материалы из СМИ, путеводители и рецепты). Уменьшенная версия модели с 1,3 млрд параметров доступна в открытом доступе. Версия mGPT с 13 млрд параметров размещена на маркетплейсе датасетов и моделей DataHub в Cloud.

600 Гб

данных понадобилось для обучения mGPT-3

Как mGPT достраивает фразу «В мае мы празднуем…» на разных языках

Источник: Cloud

«mGPT можно использовать в онлайн-торговле и маркетинге для составления мультиязычных описаний», — рассказывает лидер команды больших языковых моделей AGI NLP Олег Шляжко. Большой объём подобной работы возникает при необходимости языковой локализации карточек товаров в международных интернет-магазинах. Правда, по его словам, при создании более сложных и объёмных текстов результат генерации лучше дать на проверку носителю языка. Также модель можно дообучить для создания мультиязычных диалоговых агентов (ботов) и генерации развлекательного контента на разных языках, добавляет эксперт.

«Рерайтер»

Предназначен для переработки текста другими словами с сохранением первоначального смысла. Для этого нужно ввести исходный фрагмент и задать параметры выдачи.

Взаимодействие с бесплатной демоверсией сервиса «Рерайтер» организовано через интерфейс Swagger UI (инструмент для взаимодействия с ресурсами Open API), также предусмотрена возможность отправки в него запросов по REST API. Исходный текст нужно вставить в качестве значения к ключу «text» в поле Request body. Для корректной передачи данных из текста необходимо убирать абзацы и другие элементы форматирования.

Для промышленного использования необходимо развернуть собственный экземпляр сервиса в облаке, зарегистрировавшись в ML Space.

В дальнейшем сервис станет платным, появятся новые функции (например, переписывание под определённый стиль и поддержка новых доменов), и пользователи смогут работать в ML Space с собственной версией сервиса.

Работа в интерфейсе Swagger UI

Как «Рерайтер» перефразирует текст

Исходный текст:

«Существует распространённое мнение, что работать с агрегаторами доставки крайне невыгодно: в среднем издержки оцениваются приблизительно в 35% от общей суммы дохода. Представим себе классическую бизнес-модель ресторана. Прибыль здесь составляет от 15% до 25% от выручки. По такой логике часть выручки, необходимая для сотрудничества с агрегаторами доставки, превышает прибыль самого заведения. Но это не совсем верное представление. Если говорить точнее, совсем не верное. Рассуждая вышеописанным образом, мы упускаем из вида понятие точки безубыточности».

Версия «Рерайтера»:

«Принято считать, что работать с агрегаторами доставки крайне невыгодно: в среднем затраты оцениваются примерно как 35% от общей суммы дохода. Представим себе классический ресторан, прибыль здесь составляет от 15% до 25%. В таком случае выручка, необходимая для сотрудничества с агрегаторами доставки, превышает прибыль самого заведения. Но это не совсем правильное представление! Если говорить точнее, то это неверно. Рассуждая таким образом, мы упускаем из виду понятие точки безубыточности».

< 1 минуты

понадобилось «Рерайтеру» для работы с текстом

Эксперименты копирайтеров с сервисом показывают, что лучше всего он справляется с небольшими фрагментами. А в длинных и неоднозначных по смыслу текстах искусственному интеллекту сложно распознать суть и передать её без искажения.

Поэтому алгоритм пригодится для быстрого рерайта коротких рекламных сообщений, небольших новостных заметок или карточек товара для интернет-магазина.

По словам лидера команды прототипов AGI NLP Алёны Феногеновой, помимо автоматических метрик, для оценки оригинальности сгенерированного текста были использованы разметчики «Яндекс.Толоки». В зависимости от параметров генерации уникальность текста составляет от 87% до 92%.

«Суммаризатор»

Название этой модели происходит от английского слова ​​summary — «резюме, краткая информация». «Суммаризатор» обрабатывает исходный текст и убирает незначительные детали, оставляет только ключевые тезисы. Бесплатная демоверсия сервиса доступна в Cloud через интерфейс Swagger UI по ссылке.

Как «Суммаризатор» сокращает текст

Исходный текст (556 знаков):

«Существует распространённое мнение, что работать с агрегаторами доставки крайне невыгодно: в среднем издержки оцениваются приблизительно в 35% от общей суммы дохода. Представим себе классическую бизнес-модель ресторана. Прибыль здесь составляет от 15% до 25% от выручки. По такой логике часть выручки, необходимая для сотрудничества с агрегаторами доставки, превышает прибыль самого заведения. Но это не совсем верное представление. Если говорить точнее, совсем не верное. Рассуждая вышеописанным образом, мы упускаем из вида понятие точки безубыточности».

Результат обработки (475 знаков):

«Существует распространенное мнение, что работать с агрегаторами доставки крайне невыгодно: в среднем издержки оцениваются приблизительно в 35% от общей суммы дохода. Представим себе классическую бизнес-модель ресторана. Прибыль здесь составляет от 15% до 25% от выручки. По такой логике часть выручки, необходимая для сотрудничества с операторами доставки, превышает прибыль самого заведения. Рассуждая вышеописанным образом, мы упускаем из виду понятие точки безубыточности».

На 15%

сократил текст «Суммаризатор»

По словам главного инженера SberDevices по разработке AGI NLP Альбины Ахметгареевой, бесплатная версия сервиса пока не претендует на полную самостоятельность. Скорее, он способен облегчить и ускорить работу. Например, если копирайтеру или пиарщику нужно подготовить новую версию давно согласованного и опубликованного материала для другого канала дистрибуции. Также «Суммаризатор» используют для обработки отзывов и обращений пользователей и анализа комментариев в соцсетях. Если текст нужно сократить и изменить, то для таких задач сработает связка «Рерайтера» и «Суммаризатора» в сочетании с финальной живой редактурой.

Возможности для бизнеса

Системы искусственного интеллекта для работы с текстом востребованы в различных отраслях — от ритейла и логистики до маркетинга и HR. С одной стороны, они могут облегчить труд рядовых сотрудников. С другой стороны, их можно интегрировать на сайт или в мобильное приложение, использовать для обучения ботов или других виртуальных помощников. Возможности алгоритмов увеличиваются в том числе за счёт того, что команды разработчиков SberDevices активно работают с обратной связью от пользователей бесплатных версий. Благодаря этому создаются новые возможности для коммерческого применения сервисов.

Эта статья была вам полезна?

Читайте ещё