Топ главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE заняли решения SberDevices: в шестёрку лидеров вошли целых пять моделей, а модель ruRoberta-large finetune вообще стала лучшей по пониманию текста в соответствии с оценкой, уступая по точности только человеку.
Проект Russian SuperGLUE (General Language Understanding Evaluation) — первый рейтинг нейросетей для русского языка. Программы ранжируются исходя из того, насколько качественно они выполняют задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными нейросетями.
Оценка общего понимания языка начинается в рейтинге с набора тестов, отражающих различные языковые явления, — диагностического датасета. Он репрезентирует лингвистические феномены языка и показывает уровень знания его особенностей. Высокий скор говорит о том, что модель не просто запомнила задания или угадывает результат, а выучивает особенности и осваивает разнообразие феноменов языка.
Каждая модель также оценивается через различные задания: DaNetQA — набор вопросов на здравый смысл и знание, RCB (Russian Commitment Bank) — классификацию наличия причинно-следственных связей между текстом и гипотезой из него, PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла и другие.
«Лучшие специалисты Сбера несколько лет занимаются совершенствованием нейросетей для русского языка. Для их объективной оценки мы разработали первый в своём роде лидерборд Russian SuperGLUE, который чётко показывает прогресс в данной работе. Наша конечная цель — создание надёжных интеллектуальных систем для решения разноплановых задач на русском языке, которые могут стать предшественниками сильного искусственного интеллекта отечественной сборки», — рассказал исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии» Давид Рафаловский.
Источник: Сбер
Да
Нет
15 октября
2 мин
14 октября
2 мин
11 октября
2 мин
10 октября
2 мин
9 октября
2 мин
8 октября
2 мин