项目编号: | ITP/049/23LP |
项目标题: | 大语言模型中国HS编码自动化推荐应用系统原型 |
研发单位: | LSCM 研发中心 |
概要: | 本项目旨在研究如何利用预训练的大型语言模型(LLMs)来建立一个自动化的中国HS码推 荐系统。准确地自动化 HS 代码分配可以显著减少关税损失、合规错误和贸易延误。该应 用程式可以使涉及跨境贸易的海关当局、托运人和经纪人受益。项目可以提升作为香港与 中国内地之间贸易中介的本地中小企业的竞争能力。该项目与政府倡议相关,旨在提升本 地物流和中小企业在进出口业务中的竞争力,特别是根据行政长官2022年政策演说(第44 、47和49节),强调香港作为「国际贸易中心」、「国际航运中心」和智能物流区域玩家 的角色。 过去,HS编码参考描述的非结构化性质使传统自动化方法繁琐而困难。在测试LLMs处理细 微查询、非结构化文本、上下文和其他信息以进行检索增强时,我们发现某些流程使LLMs 能够通过简短的用户输入生成准确的HS码。目前基于初步实验测试, 最佳方法涉及逐步 (每次2位数)的检索工作流程,通过上下文文本块增强,与标准机器学习分类方法相比, 前四位数的准确性要高得多 (>92%)。透过查询LLM,此类上下文文本块的决策规则也与2 022年HS编码解释(中国海关,第1卷,第1-3章)的90%以上匹配。本项目提出测试各 种提示技术、检索增强方法,研究多个LLMs(包括中国LLMs),以找到最佳表现者,优化 HS码推导的流程准确性。 为了使HS 程式码推荐工作流程自动化并作为服务运行,我们建议对原型进行以下工程开 发:[1] 将前缀特里树作为更有效的资料结构来编码分层HS 程式码,以减少多层检索回应 时间[ 2] 考虑到 LLM 的上下文视窗大小(~4000 个可用标记)有限,向量资料库可以透过 更有效地储存和检索资料来帮助减少回应时间。最后将建立聊天服务API,方便使用者互 动。除了满足准确性和回应时间以及可快速更新的目标外,我们 将在总结研究报告中, 报 告优化的处理架构以及三个大语言模型的性能和 HS 代码推荐限制的比较。 |
项目统筹员: | 唐志鸿博士 |
资助金额: | 港币二百七十一万 |
项目周期: | 2023年12月1日 - 2025年5月31日 |