Google “mówić” ludzkim głosem

0
46

Specjaliści giganta z mountain view, Google opublikował artykuł, w którym opowiedzieli o tym, co stworzyli generator mowy, w stanie mówić неотличимым od żywego człowieka głosem. Opracowanie nazywa Tacotron 2 i jest w stanie bardzo wysokiej jakości konwersję tekstu na mowę.

Program przedstawia dwie połączone нейросети głębokiego uczenia się. Pierwsza sieć neuronową tworzy na podstawie tekstu спектрограмму i przekazuje jej drugiego algorytmu WaveNet, który ją i czyta “głos”. Tacotron 2 zna wiele niuansów, bez problemu radzi sobie ze skomplikowanymi w wymowie słowa i czytając z kartki, uwzględnia interpunkcję. Dzięki temu, na przykład, dostrzega koniec zdania i początek nowego, podkreślając ich intonacji.

Próbki pracy aplikacji specjaliści już napisali na stronie, poświęconej projektowaniu. Brzmi to o wiele lepiej, niż monotonne mechaniczne głosy nowoczesnych programów nagłośnienia, więc trzeba uważać, Google szybko znajdzie rozwoju aplikacji. WaveNet jest już używany w Google Assistant, więc Tacotron 2 na pewno będzie dla niej doskonałym dodatkiem.

Na tym etapie rozwoju Tacotron 2 mówi tylko przyjemnym kobiecym głosem, ale, prawdopodobnie, w przyszłości zyska i męskim rozwiązaniem, a biorąc pod uwagę jego zdolność do uczenia się, być może, uczyć się i naśladować inne głosy.

Google “mówić” ludzkim głosem
Wiaczesław Łarionow