Интересное
В 2023 году появились новые разработки в сфере распознавания человеческой речи, они меняют подходы в управлении и промышленным производством, и «умным» домом.
Суть всех таких систем заключается в автоматическом синхронном преобразовании речевого сигнала в цифровую информацию.
Ключевым направлением в этой области сейчас является разработка интерфейсов безмолвного доступа — silent speech interfaces, SSI. Они решают проблему традиционных систем распознавания, которые слишком чувствительны, из-за чего в шумной среде их эффективность резко снижается. Поэтому для корректной работы необходимо тихое место и чёткая членораздельная речь.
Интерфейсы безмолвного доступа построены по принципу получения и обработки речевых сигналов на ранней стадии артикуляции. Для этого используются сенсоры нового поколения, которые распознают ещё и мимику. Благодаря этой способности устройства высокоточны и не боятся различных аудиопомех.
Такой инструментарий можно применять во многих сферах экономики, в инклюзии. В том числе:
В апреле о разработке интерфейса безмолвного доступа сообщил Санкт-Петербургский Федерального исследовательский центр РАН. Его сотрудники обучили нейросеть распознавать человеческую речь по губам с высокой точностью.
Алгоритм анализирует информацию из двух источников: он слышит не только сам звук, но и «считывает» визуальный сигнал с видеокамеры устройства. Такая гибридная система эффективнее распознаёт команды человека в шумной обстановке.
Российская нейросетевая модель воспринимает уже несколько сотен фраз. В ходе экспериментов программу загрузили в смартфоны, которые использовали водители большегрузов. Точность распознавания команд в комбинации со звуковым сигналом превысила 90%.
В будущем алгоритм может найти применение в авиапилотировании, управлении тяжёлой промтехникой, а также для использования в инфокиосках в торговых центрах и других многолюдных местах, перечисляют петербургские исследователи.
>90%
точность распознавания российской разработки
Российская нейросетевая модель воспринимает уже несколько сотен фраз. В ходе экспериментов программу загрузили в смартфоны, которые использовали водители большегрузов. Точность распознавания команд в комбинации со звуковым сигналом превысила 90%.
>90%
точность распознавания российской разработки
В будущем алгоритм может найти применение в авиапилотировании, управлении тяжёлой промтехникой, а также для использования в инфокиосках в торговых центрах и других многолюдных местах, перечисляют петербургские исследователи.
Схожие исследования ведутся за рубежом, например в Корнеллском университете. В апреле он сообщил о создании очков под названием EchoSpeech.
На этом приборе установлены датчики-эхолокаторы. Они анализируют движения лица на основании акустических волн, которые от него отражаются. Датчики фиксируют деформацию кожи, что позволяет различить не только произнесённые вслух слова, но и шёпот или беззвучную артикуляцию.
Сейчас EchoSpeech могут «узнавать» 31 команду и последовательность 3—6 цифр. При распознавании отдельных слов частота ошибок алгоритма составляет 4,5%, последовательности цифр — 6,1%. Это на 1—2 процентных пункта выше, чем при общении между людьми.
В будущем интерфейсы безмолвного доступа могут активно применяться на практике — от усовершенствования гаджетов до управления заводскими роботами.
Кроме того, учёные разрабатывают нейрокомпьютерные интерфейсы, которые будут передавать информацию в компьютер напрямую из мозга человека, минуя органы чувств, отмечает ВШЭ. Это ещё один путь повышения эффективности цифрового взаимодействия.
Напишите нам и менеджеры свяжутся с вами