Разработана офлайн-система распознавания речи, работающая с точностью в 97%

Приглашаем на GRAND DRIVE PARTY 2024
23.11.24
0
6121
узнать больше

Разработана офлайн-система распознавания речи, работающая с точностью в 97%

24.10.18
0
10355
фон:

Как правило, различные системы распознавания речи, лиц, переводчики и прочие используют огромные серверные мощности для своей работы. А для того, чтобы сделать их доступными для каждого, разработчики передают все данные по интернету, что не дает возможности использовать их в офлайне. Однако современные алгоритмы нейросетей помогают добиться действительно потрясающих результатов. Не так давно Microsoft и Google уже сделали свои переводчики на основе нейросетей полностью независящим от сети, а сейчас настало время алгоритмов распознавания голоса.

За разработку отвечает группа исследователей из Университета Ватерлоо и стартапа под названием DarwinAI. Их технология получила название EdgeSpeechNets.

«В этом исследовании мы используем стратегию создания архитектуры с низким уровнем нагрузки на устройство, но со всеми плюсами подхода с использованием мощной нейросети с глубоким машинным обучением.»

Для начала эксперты создали прототип будущей системы, который выполнял распознавание речи, но обладал ограниченным словарным запасом. При этом он был способен выявлять известные ему ключевые слова даже из очень быстрого потока речи. После этого полученные данные использовались для преобразования звукового сигнала в математическую формулу. Эта формула и использовалась в дальнейшем для проектирования нейросети, которая обладала бы высокой производительностью, но была бы не требовательна к железу.

После этого ученые решили испытать получившуюся программу. Для этого использовалось хранилище Google Speech Commands, которое содержит 65000 1-секундных звуковых образцов. В итоге одна из версий системы, а именно EdgeSpeechNet-D, показала просто отличный результат, достигнув точности в 97% на довольно слабом смартфоне Motorola Moto E c процессором 1,4 ГГц.

«EdgeSpeechNet имеет более высокую точность распознавания при гораздо низких затратах на вычисления. Полученные результаты демонстрируют, что EdgeSpeechNet смогла достичь самой современной производительности, требуя значительно меньше вычислительной мощности, что делает их очень подходящими для использования в мобильных устройствах и приложениях.»

Источник