Интересное

Читай по губам. Как ИИ распознаёт речь без звука и чем это полезно бизнесу

26 июня 2023

4 минуты

Поделиться в соцсетях

Читай по губам. Как ИИ распознаёт речь без звука и чем это полезно бизнесу

Промышленность Нейросети IT Коммуникации

В 2023 году появились новые разработки в сфере распознавания человеческой речи, они меняют подходы в управлении и промышленным производством, и «умным» домом.

Язык мимики

Суть всех таких систем заключается в автоматическом синхронном преобразовании речевого сигнала в цифровую информацию.

Ключевым направлением в этой области сейчас является разработка интерфейсов безмолвного доступа — silent speech interfaces, SSI. Они решают проблему традиционных систем распознавания, которые слишком чувствительны, из-за чего в шумной среде их эффективность резко снижается. Поэтому для корректной работы необходимо тихое место и чёткая членораздельная речь.

Интерфейсы безмолвного доступа построены по принципу получения и обработки речевых сигналов на ранней стадии артикуляции. Для этого используются сенсоры нового поколения, которые распознают ещё и мимику. Благодаря этой способности устройства высокоточны и не боятся различных аудиопомех.

Такой инструментарий можно применять во многих сферах экономики, в инклюзии. В том числе:

для помощи в общении людям с травмами рук, нарушениями слуха и речи;

на предприятиях со сложным оборудованием, где у работников заняты руки, а в окружающей среде много шумов;

для улучшения функционала цифровых помощников в смартфонах и других устройствах;

для развития систем «умного» дома;

для управления разными видами транспорта.

Новые проекты

В апреле о разработке интерфейса безмолвного доступа сообщил Санкт-Петербургский Федерального исследовательский центр РАН. Его сотрудники обучили нейросеть распознавать человеческую речь по губам с высокой точностью.

Алгоритм анализирует информацию из двух источников: он слышит не только сам звук, но и «считывает» визуальный сигнал с видеокамеры устройства. Такая гибридная система эффективнее распознаёт команды человека в шумной обстановке.

Российская нейросетевая модель воспринимает уже несколько сотен фраз. В ходе экспериментов программу загрузили в смартфоны, которые использовали водители большегрузов. Точность распознавания команд в комбинации со звуковым сигналом превысила 90%.

В будущем алгоритм может найти применение в авиапилотировании, управлении тяжёлой промтехникой, а также для использования в инфокиосках в торговых центрах и других многолюдных местах, перечисляют петербургские исследователи.

>90%

точность распознавания российской разработки

>90%

точность распознавания российской разработки

Схожие исследования ведутся за рубежом, например в Корнеллском университете. В апреле он сообщил о создании очков под названием EchoSpeech.

На этом приборе установлены датчики-эхолокаторы. Они анализируют движения лица на основании акустических волн, которые от него отражаются. Датчики фиксируют деформацию кожи, что позволяет различить не только произнесённые вслух слова, но и шёпот или беззвучную артикуляцию.

Сейчас EchoSpeech могут «узнавать» 31 команду и последовательность 3—6 цифр. При распознавании отдельных слов частота ошибок алгоритма составляет 4,5%, последовательности цифр — 6,1%. Это на 1—2 процентных пункта выше, чем при общении между людьми.

В будущем интерфейсы безмолвного доступа могут активно применяться на практике — от усовершенствования гаджетов до управления заводскими роботами.

Кроме того, учёные разрабатывают нейрокомпьютерные интерфейсы, которые будут передавать информацию в компьютер напрямую из мозга человека, минуя органы чувств, отмечает ВШЭ. Это ещё один путь повышения эффективности цифрового взаимодействия.

Самые важные кейсы лидеров бизнеса, мнения ведущих экспертов и тренды в отраслях экономики теперь всегда под рукой — подпишитесь на наш Telegram-канал.

Промышленность Нейросети IT Коммуникации

Поделиться в соцсетях

Статья была вам полезна?

Да

Нет