Wavenet: улучшенный синтезатор речи на основе свёрточной нейросети

"дочка" корпорации Гугл называющиеся DeepMind, занимающаяся улучшением и разработкой ИИ, представила усовершенствованный метод для синтеза людской речи WaveNet. С целью достижения более реалистичного результата команда разработчиков применяла собственную совокупность ИИ. 

Приобретённая в 2014 г., английская компания DeepMind уже успела завоевать важную репутацию благодаря программе AlphaGo для игры в Го, кнопке “стоп” для ИИ и вторым не меньше впечатляющим проектам. Среди них и машинного обучения для понимания естественных языков.

В большинстве случаев совокупности преобразования информации в обращение применяют уже готовые аудиозаписи голоса. Особая программа идентифицирует и выделяет необходимые звуки, классифицирует их посредством дешёвых данных, составляя предложения. Такая совокупность именуется компилятивным синтезом. Способ приобрел собственную известность благодаря применению в популярных голосовых помощниках, к примеру, Гугл Voice Search.

Но, у этого способа имеется достаточно значительный недочёт, в частности — затруднения при модификации голоса для трансформации эмоциональной составляющей речи либо выговора.

  1. Parametriс (Британский)
  2. Parametriс (Путунхуа)

Такое положение вещей стало причиной спросу на другой способ — параметрический TTS. По сути, это машинная генерация речи, исключающая обрисованные для способа компилятивного синтеза минусы. Но, имеется вторая неприятность.

Подобный подход имеет характерные для машинного голоса “синтетические” черты и воспринимается мозгом в противном случае, нежели простая людская обращение. Особенно это относится английского (изюминки фонетики).

  1. Concatenative (Британский)
  2. Concatenative (Путунхуа)

Работа метода WaveNet решает неприятности параметрического и компилятивного синтезов. Его сущность содержится в поточечной генерации профиля звуковой волны по семплам. Разработчики применяли нейросеть типа FCN.

Её архитектура схожа с рекуррентными и свёрточными нейросетями (PixelRNN и PixelCNN).

Wavenet: улучшенный синтезатор речи на основе свёрточной нейросети

WaveNet — свёрточная нейросеть. Любой слой тут имеет собственный множитель расширения (наблюдай анимацию). Это разрешает расти рецептивному полю экспоненциально, покрывая множество временных отрезков. Ранее подобное воздействие потребовало намного больших мощностей.

Возможность генерировать сложные естественные изображения по одному цветовому каналу и пикселю за момент времени — итог адаптации двумерной PixelNets в одномерную WaveNet.

Обучение данной сети происходит методом входящих последовательностей, каковые являются звуковые волны примеров записи голоса. На каждом шагу сэмплинга значение вычисляется из вероятностного распределения вычисленного сетью. После этого это значение возвращается на вход, по окончании чего происходит новое предсказание для следующего шага.

 Создание сэмплов, так, есть достаточно ресурсоемкой задачей, но это нужно для генерации сложных звуков.

После этого разработчики решили проверить реалистичность собственного способа посредством слепых тестов. Собравшихся добровольцев попросили оценить “естественность” образцов по шкале от одного до пяти. В итоге WaveNet взял самую высокую оценку среди упомянутых в статье синтезаторов речи.

 Тем самым сократив разрыв между неестественной и естественной речью практически на 50%.

  1. WaveNet (Британский)
  2. WaveNet (Путунхуа)

Учитывая гибкость WaveNet, совокупность может самостоятельно синтезировать подобие людской речи. В этом случае она применяет полученные знания о том, как обязан звучать любой последующий звук. Это разрешает нейросети не просто имитировать обращение, а привносить в нее эмоциональный окрас.

  1. направляться 1
  2. Speaker 2
  3. Speaker 3
  4. Speaker 4
  5. Speaker 5
  6. Speaker 6

Да и то, что недоступно при с компилятивным синтезом, для WaveNet не неприятность.

  1. Speaker 1
  2. Speaker 2
  3. Speaker 3
  4. Speaker 4

Но и это не все. Кроме людской речи, WaveNet кроме этого возможно использована для музыки (16КГц).

  1. Sample 1
  2. Sample 2
  3. Sample 3
  4. Sample 4
  5. Sample 5
  6. Sample 6

WaveNet до тех пор пока нигде не употребляется, поскольку требует важных вычислительных мощностей. Но, разработчики не исключают, что отыщут ей использование.

Если вы нашли неточность, прошу вас, выделите фрагмент текста и надавите Ctrl+Enter.

Увлекательные записи:

Нейронные сети научили в точности воспроизводить любой голос


Комментарии и уведомления в настоящее время закрыты..

Комментарии закрыты.