問題描述
任何 TTS 引擎都可以改變聲音的語言,進而改變它的音素嗎? (Can any TTS engine change a voice's language, and subsequently its phoneme?)
假設我想要一些帶有意大利口音的英文文本。
我在他們受人尊敬的網站上嘗試過的許多引擎演示都可以使用意大利語,但是當您嘗試讓它用英語發音幾句時,它們通常會變得非常難以理解,因為它們正在運行由不同的音素。
SSML 中有音素標籤,我知道有一個網站可以讓您實際演示 SSML。我嘗試將這種常見且通用的意大利語對話放入他們的意大利語語音中:
Mama mia! Princess Peach and my friends have been kidnapped?
Chase Bowser, so we can eat some spaghetti!
並且這是相當難以理解的。利用 SSML 或其他東西;我可以保持口音,但糾正語音音素以使其易於理解嗎?
參考解法
方法 1:
You can hire a voice‑talent with Italian accent and make a new TTS model where such option is available. Even with a several hours of speech you can get a decent model.
The second option is speech morphing, but it requires some efforts as well as knowledge in the domain.
(by Anon、Alexander Solovets)