Топ главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE заняли решения SberDevices: в шестёрку лидеров вошли целых пять моделей, а модель ruRoberta-large finetune вообще стала лучшей по пониманию текста в соответствии с оценкой, уступая по точности только человеку.
Проект Russian SuperGLUE (General Language Understanding Evaluation) — первый рейтинг нейросетей для русского языка. Программы ранжируются исходя из того, насколько качественно они выполняют задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными нейросетями.
Оценка общего понимания языка начинается в рейтинге с набора тестов, отражающих различные языковые явления, — диагностического датасета. Он репрезентирует лингвистические феномены языка и показывает уровень знания его особенностей. Высокий скор говорит о том, что модель не просто запомнила задания или угадывает результат, а выучивает особенности и осваивает разнообразие феноменов языка.
Каждая модель также оценивается через различные задания: DaNetQA — набор вопросов на здравый смысл и знание, RCB (Russian Commitment Bank) — классификацию наличия причинно-следственных связей между текстом и гипотезой из него, PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла и другие.
«Лучшие специалисты Сбера несколько лет занимаются совершенствованием нейросетей для русского языка. Для их объективной оценки мы разработали первый в своём роде лидерборд Russian SuperGLUE, который чётко показывает прогресс в данной работе. Наша конечная цель — создание надёжных интеллектуальных систем для решения разноплановых задач на русском языке, которые могут стать предшественниками сильного искусственного интеллекта отечественной сборки», — рассказал исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии» Давид Рафаловский.
Источник: Сбер
Что это значит? Из него будет отшиваться верхняя одежда. Выпускать планируют от 3 000 до 5 000 изделий в год.
24 марта
2 мин
Что это значит? Положительная динамика коснулась спроса, выпуска продукции и занятости.
24 марта
3 мин
Что это значит? Благодаря такому инструменту бизнес получит доступ к списку необходимых процедур для реализации строительных проектов.
23 марта
2 мин
Что это значит? Средства также будут направлены на реконструкцию государственных кредитов для бизнеса, чтобы улучшить условия входа на площадки.
23 марта
2 мин
Что это значит? На корректировку повлияли показатели ключевых предпосылок, связанных с внешней торговлей и бюджетными расходами.
22 марта
2 мин
Что это значит? Они позволят местным производителям расширить бизнес — вывести его за пределы региона и страны.
22 марта
2 мин
Да
Нет
Что это значит? Из него будет отшиваться верхняя одежда. Выпускать планируют от 3 000 до 5 000 изделий в год.
24 марта
2 мин
Что это значит? Положительная динамика коснулась спроса, выпуска продукции и занятости.
24 марта
3 мин
Что это значит? Благодаря такому инструменту бизнес получит доступ к списку необходимых процедур для реализации строительных проектов.
23 марта
2 мин
Что это значит? Средства также будут направлены на реконструкцию государственных кредитов для бизнеса, чтобы улучшить условия входа на площадки.
23 марта
2 мин
Что это значит? На корректировку повлияли показатели ключевых предпосылок, связанных с внешней торговлей и бюджетными расходами.
22 марта
2 мин
Что это значит? Они позволят местным производителям расширить бизнес — вывести его за пределы региона и страны.
22 марта
2 мин