Искусственный интеллект microsoft стал понимать устную речь лучше человека

6 февраля 2009

smart

Новый рекорд

Совокупность Микрософт для распознавания устной людской речи обучилась делать это лучше, чем намерено натренированные люди. Это заявил в блоге компании основной эксперт Микрософт в области распознавания речи Сюэдон Хуан (Xuedong Huang). Он утвержает, что часть неточностей, каковые допускает совокупность в ходе транскрибирования телефонного беседы, снизилась до 5,1% — столько же неточностей делает команда намерено обученных людей.

Наряду с этим простые люди, у которых нет особой подготовки, выявят устную обращение с долей неточностей 5,9%. В сентябре 2016 г. совокупность Микрософт допускала 6,3% неточностей, что в то время было мировым рекордом точности машинного транскрибирования. Но уже в октябре она снизила количество неточностей до 5,9%, как у среднестатистического человека.

Под долей неточностей понимается процент слов, каковые неправильно транскрибируются на протяжении прослушивания телефонного беседы. Для проверки совокупности Микрософт пользуется стандартным тестом на правильность распознавания речи Switchboard, что активно используется в отрасли, а также компаниями IBM и Гугл.

Искусственный интеллект microsoft стал понимать устную речь лучше человека

Микрософт установила новый рекорд в распознавании устной людской речи

Но до тех пор пока что совокупность Микрософт может только выявить устную обращение и адекватно представить ее в письменной форме. Суть раздавшихся слов компьютер пока не осознаёт. Помимо этого, распознавание проходит прекрасно лишь тогда, в то время, когда разговор четко звучит на качественной записи.

В случае если же обращение звучит в окружении посторонних шумов, процент неточностей растет.

Технические базы распознавания речи в Микрософт

Любопытно, что еще 20 лет назад количество неправильно выявленных компьютером слов составляло более 43%. Компании наподобие Микрософт и IBM смогли так на большом растоянии продвинуться в данной сфере благодаря применению глубоких нейронных сетей, работа которых напоминает биологические процессы в головном мозге человека. Нейронные сети считаются главной разработкой в разработке не только распознавания речи, но и компьютерного зрения.

Такая сеть имеет несколько слоев. Разработчики Микрософт сравнительно не так давно изобрели новый тип связи между различными слоями нейронной сети, что разрешило им победить конкурс компьютерного зрения ImageNet в 2016 г.

Еще одним критически серьёзным компонентом изучения был нейросетевой инструментарий Микрософт Cognitive Toolkit 2.1 (CNTK), что разрешает запускать глубинные обучающие методы. Для улучшенного звукового моделирования употребляется сверточная нейронная сеть в сочетании с двунаправленной продолжительной кратковременной памятью CNN-BLSTM.

Шагом вперед кроме этого стала параллельная подстройка графических процессоров (GPU). Изначально GPU были созданы для работы с компьютерной графикой, но сейчас стало известно, что они прекрасно подходят для обработки сложных методов наподобие того, что нужен для распознавания речи. В частности, для более тестирования новых и быстрой тренировки системы идей компания применяет облачные Azure GPU.