Google разрабатывает генератор речи под названием Tacotron 2, способный синтезировать речь неотличимую от речи живого человека. Достигли это с помощью передачи синтезированной речи TTS через нейросеть WaveNet. Последняя ориентировалась на спектрограммы рекуррентной сети.
Выглядит это примерно так:
- Рекуррентная сеть прогнозирования временных рядов преобразует текстовые символы в спектрограмму:
Пример спектрограммы эффекта «Вау» («Whoa»). Интересную информацию о спектрограммах можно почерпнуть из документа Speech Technology.
Далее полученная спектрограмма передаётся модифицированной сверточной нейронной сети WaveNet, которая прогоняет сигнал через вокодер:
Схема работы генератора речи Tacotron 2
В итоге получается синтезированная речь, по звучанию очень похожая на человеческую. Tacotron 2 произносит речь с интонацией, учитывая все знаки пунктуации в предложении.
На странице Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions" представлено множество аудиопримеров произношения Tacotron 2. Аудио разбито на группы:
- Tacotron 2 works well on out-of-domain and complex words (произношение сложных предложений).
- Tacotron 2 learns pronunciations based on phrase semantics (работа с семантической структурой предложения).
- Tacotron 2 is somewhat robust to spelling errors (автоматическое исправление слов с орфографическими ошибками и правильное их произношение).
- Tacotron 2 is sensitive to punctuation (произношение предложений с запятой и без).
- Tacotron 2 learns stress and intonation (произношение с акцентом слов, набранных в верхнем регистре).
- Tacotron 2's prosody changes when turning a statement into a question (произношение предложений без вопроса и с вопросительным знаком).
- Tacotron 2 is good at tongue twisters (произношение скороговорок).
- Tacotron 2 or Human? (отгадай, где человек, а где машина). В этих примерах один голос сгенерирован с помощью Tacotron 2, а второй — запись реального человека (подсказка: в имени трека, озвученного машиной, есть небольшая приписочка в виде слова gen, например, romance_gen.wav).
На данном этапе разработки Tacotron 2 синтезирует речь на английском языке в женской озвучке. В дальнейшем разработчики планируют ввести другие языки, а также мужской вариант озвучивания. Технология Tacotron 2 может найти своё место в Google Translate и в Google Assistant.
См. также документ на тему синтезации речи с помощью Tacotron 2: Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.
Спасибо за пост в #ru
Поддержано!
Мы поддерживаем русскоязычных авторов стима!
Поддержите вместе с нами.
делегировать 10 СП
делегировать 20 СП
делегировать 50 СП
делегировать 100 СП
делегировать 500 СП
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit