Голос Google Assistant начнет звучать намного естественнее благодаря WaveNet – новой системе преобразования текста в речь, которая была разработана подразделением DeepMind Google.
WaveNet в лучшую сторону отличается от традиционной Concatenative TTS, которая использует большую базу предварительно записанной речи одним автором. А уж тем более WaveNet обходит систему Parametric TTS, которая использует голос, генерируемый компьютером. В случае с WaveNet задействуются нейронные сети. Вместо заранее записанных реплик система обучается посредством образцов человеческой речи, что впоследствии позволит ей самостоятельно генерировать более реалистичный голос. Что не менее важно, со временем WaveNet будет становиться только умнее, а реплики реалистичнее.
Google двенадцать месяцев потребовалось на сбор образцов речи, разработку и оптимизацию WaveNet. И этот срок можно считать небольшим, учитывая какой прогресс мы видим сегодня. Только представьте, насколько реалистичнее голос Google Assistant может стать еще через год.
WaveNet на данный момент работает с английским и японским языками, но Google, скорее всего, в ближайшее время займется «очеловечиванием» и других языков.
Источник: GSMARENA