項目編號: | ITP/049/23LP |
項目標題: | 大語言模型中國HS編碼自動化推薦應用系統原型 |
研發單位: | LSCM研發中心 |
概要: | 本項目旨在研究如何利用預訓練的大型語言模型(LLMs)來建立一個自動化的中國HS碼推 薦系統。 準確地自動化 HS 代碼分配可以顯著減少關稅損失、合規錯誤和貿易延誤。 該應 用程式可以使涉及跨境貿易的海關當局、托運人和經紀人受益。 項目可以提升作為香港與 中國內地之間貿易中介的本地中小企業的競爭能力。該項目與政府倡議相關,旨在提升本 地物流和中小企業在進出口業務中的競爭力,特別是根據行政長官2022年政策演說(第44 、47和49節),強調香港作為「國際貿易中心」、「國際航運中心」和智能物流區域玩家 的角色。 過去,HS編碼參考描述的非結構化性質使傳統自動化方法繁瑣而困難。在測試LLMs處理細 微查詢、非結構化文本、上下文和其他信息以進行檢索增強時,我們發現某些流程使LLMs 能夠通過簡短的用戶輸入生成準確的HS碼。目前基於初步實驗測試, 最佳方法涉及逐步 (每次2位數)的檢索工作流程,通過上下文文本塊增強,與標准機器學習分類方法相比, 前四位數的準確性要高得多 (>92%)。 透過查詢LLM,此類上下文文本塊的決策規則也與2 022年HS編碼解釋(中國海關,第1卷,第1-3章)的90%以上匹配。 本項目提出測試各 種提示技術、檢索增強方法,研究多個LLMs(包括中國LLMs),以找到最佳表現者,優化 HS碼推導的流程準確性。 為了使HS 程式碼推薦工作流程自動化並作為服務運行,我們建議對原型進行以下工程開 發:[1] 將前綴特里樹作為更有效的資料結構來編碼分層HS 程式碼,以減少多層檢索回應 時間[ 2] 考慮到 LLM 的上下文視窗大小(~4000 個可用標記)有限,向量資料庫可以透過 更有效地儲存和檢索資料來幫助減少回應時間。 最後將建立聊天服務API,方便使用者互 動。 除了滿足準確性和回應時間以及可快速更新的目標外,我們 將在總結研究報告中, 報 告優化的處理架構以及三個大語言模型的性能和 HS 代碼推薦限制的比較。 |
項目統籌員: | 唐志鴻博士 |
資助金額: | 港幣二百七十一萬 |
項目週期: | 2023年12月1日 - 2025年5月31日 |