Microsoft установила рекорд по точности распознавания речи

Microsoft установила рекорд по точности распознавания речи

Исследовательское подразделение компании Microsoft объявило, что им удалось достичь самой высокой точности распознавания речи за всю историю человечества.

Исследователям удалось достичь в метрике Word Error Rate результата в 6,3%. Этот показатель отражает долю неправильно распознанных системой слов.

Например, в прошлом году компания Google объявила о достижении результата в 8%, а в 2013 году этот показатель составлял вообще 23%. Повышение точности распознавания речи играет важную роль в развитии голосовых помощников, таких как Cortana, Google Assistant и Siri.

«Наша лучшая одиночная система достигает коэффициента ошибок 6,9% в тесте Switchboard Национального института стандартов и технологий США. Мы считаем, что это лучший зарегистрированный на сегодняшний день результат для технологии распознавания речи на основе комбинации систем. Во время работы этой технологии в группе с другими тест Switchboard показал результат 6,3%», – рассказали исследователи из Microsoft Research.

Джеффри Цвейг, главный научный сотрудник и руководитель исследовательской группы Speech & Dialog компании Microsoft, уверен, что такой низкий процент ошибок был достигнут благодаря мастерству членов его команды, которые разработали новые алгоритмы обучения, высокооптимизированные сверхточные и рецидивирующие нейросетевые модели, а также такие инструменты, как вычислительная сеть Toolkit. Эта сеть реализует сложные механизмы, которые позволяют алгоритмам глубокого обучения работать на порядок быстрее, чем раньше. Важным шагом вперед стал прорыв в параллельном обучении на графических процессорах.

«Это новый этап для всего широкого спектра новых технологий, разработанных сообществом искусственного интеллекта большим количеством различных организаций за последние 20 лет», – заявил Сюэдун Хуан, руководитель по исследованию языка в Microsoft.