項目編號: | ITP/052/19LP |
項目標題: | 有場景意識的文本到語音合成 |
研發單位: | LSCM研發中心 |
概要: | 有場景意識的文本到語音合成文本到語音合成(TTS)具有廣泛的應用,如使用聊天機器人應用程序與老人溝通以提供護理;向視覺障礙者發出不同類型的警報和傳感器信息;自動發佈公告等。鑒於TTS科技的先進性,組織者使用軟件合成語音變得很普遍,這樣可以减少招聘語音人才的需要。然而, 即使TTS很先進,生成的語音也可以很流暢,但缺乏音調。研究表明,大多數人類的交流感知來自非言語表達,包括語音語調和强度[1][2]。例如,機器人說什麼以及它使用什麼語氣會影響用戶感到與機器人的互動是鼓舞還是無聊[3]。在該項目中,我們將著重於根據不同的場景學習不同的語音特徵。我們希望我們的研究能够生成具有相應屬性的語音,如語音環境、音調、速度和風格,這些内容能够與場景匹配。我們的研究內容包括:(1)構建機器學習模型,學習語音中不同場景的嵌入;(2)建立包含場景意識的TTS引擎。 [1] Laplante, D., & Ambady, N. 2003. On How Things Are Said: Voice Tone, Voice Intensity, Verbal Content, and Perceptions of Politeness. Journal of Language and Social Psychology, 22(4), 434–441. [2] Philip Yaffe. 2011. The 7% rule: fact, fiction, or misunderstanding. Ubiquity 2011, October, Article 1 (October 2011) [3] Maja Matarić, How to Build Robots People Can Relate To, The Wall Street Journal |
項目統籌員: | 岑松德博士 |
資助金額: | 港幣二百七十九萬 |
項目週期: | 2020年2月1日至2021年1月31日 |