Microsoft установила рекорд по точности распознавания речи
Исследовательское подразделение компании Microsoft объявило, что им удалось достичь самой высокой точности распознавания речи за всю историю человечества.
Исследователям удалось достичь в метрике Word Error Rate результата в 6,3%. Этот показатель отражает долю неправильно распознанных системой слов.
Например, в прошлом году компания Google объявила о достижении результата в 8%, а в 2013 году этот показатель составлял вообще 23%. Повышение точности распознавания речи играет важную роль в развитии голосовых помощников, таких как Cortana, Google Assistant и Siri.
«Наша лучшая одиночная система достигает коэффициента ошибок 6,9% в тесте Switchboard Национального института стандартов и технологий США. Мы считаем, что это лучший зарегистрированный на сегодняшний день результат для технологии распознавания речи на основе комбинации систем. Во время работы этой технологии в группе с другими тест Switchboard показал результат 6,3%», – рассказали исследователи из Microsoft Research.
Джеффри Цвейг, главный научный сотрудник и руководитель исследовательской группы Speech & Dialog компании Microsoft, уверен, что такой низкий процент ошибок был достигнут благодаря мастерству членов его команды, которые разработали новые алгоритмы обучения, высокооптимизированные сверхточные и рецидивирующие нейросетевые модели, а также такие инструменты, как вычислительная сеть Toolkit. Эта сеть реализует сложные механизмы, которые позволяют алгоритмам глубокого обучения работать на порядок быстрее, чем раньше. Важным шагом вперед стал прорыв в параллельном обучении на графических процессорах.
«Это новый этап для всего широкого спектра новых технологий, разработанных сообществом искусственного интеллекта большим количеством различных организаций за последние 20 лет», – заявил Сюэдун Хуан, руководитель по исследованию языка в Microsoft.