项目编号: | ITP/047/19LP |
项目标题: | 应用于专业领域机密文件的神经机器翻译引擎 |
研发单位: | LSCM 研发中心 |
概要: | 许多商业和法律背景下的文件翻译都要求保密和准确。虽然神经机器翻译有了突破性进展,但是如果翻译的文件不想被其他方看到话,公共翻译服务如谷歌翻译和微软翻译仍然无法被使用。 此外,大多数公共翻译服务的目标是一般文件,达不到商业和法律目的所要求的准确性。在这个项目中,我们提出开发一个可由组织独立拥有的神经机器翻译引擎,可以保持要翻译的文件完全保密。该引擎还针对专业领域的翻译问题,旨在提高翻译的准确性。 我们的研发工作包括:(1)构建机器学习开发环境,包括GPU场和存储系统,为机器学习开发周期提供服务和工具; (2)开发自动将数据(文本)分类到不同域的工具,以丰富培训数据的上下文; (3)开发在并行文本语料库中提取和配对句子的工具,以提高培训效果;(4)扩展Transformer架构,利用域自适应技术处理专业领域的翻译; (5)基于扩展的 Transformer架构构建翻译引擎,改进专业领域翻译。 |
项目统筹员: | 岑松德博士 |
资助金额: | 港币一仟六百四十万 |
项目周期: | 2020年01月02日至2021年12月31日 |