项目编号: | ITP/052/19LP |
项目标题: | 有场景意识的文本到语音合成 |
研发单位: | LSCM 研发中心 |
概要: | 有场景意识的文本到语音合成文本到语音合成(TTS)具有广泛的应用,如使用聊天机器人应用程序与老人沟通以提供护理;向视觉障碍者发出不同类型的警报和传感器信息;自动发布公告等。鉴于TTS科技的先进性,组织者使用软件合成语音变得很普遍,这样可以减少招聘语音人才的需要。然而, 即使TTS很先进,生成的语音也可以很流畅,但缺乏音调。研究表明,大多数人类的交流感知来自非言语表达,包括语音语调和强度[1][2]。例如,机器人说什么以及它使用什么语气会影响用户感到与机器人的互动是鼓舞还是无聊[3]。在该项目中,我们将着重于根据不同的场景学习不同的语音特征。我们希望我们的研究能够生成具有相应属性的语音,如语音环境、音调、速度和风格,这些内容能够与场景匹配。我们的研究内容包括:(1)构建机器学习模型,学习语音中不同场景的嵌入;(2)建立包含场景意识的TTS引擎。 [1] Laplante, D., & Ambady, N. 2003. On How Things Are Said: Voice Tone, Voice Intensity, Verbal Content, and Perceptions of Politeness. Journal of Language and Social Psychology, 22(4), 434–441. [2] Philip Yaffe. 2011. The 7% rule: fact, fiction, or misunderstanding. Ubiquity 2011, October, Article 1 (October 2011) [3] Maja Matarić, How to Build Robots People Can Relate To, The Wall Street Journal |
项目统筹员: | 岑松德博士 |
资助金额: | 港币二百七十九万 |
项目周期: | 2020年2月1日至2021年1月31日 |