項目編號: | ITP/052/21LP |
項目標題: | 基於圖和聚類的文本分析技術去發掘在經濟與創新發展 文集中具有意義的關係模式 |
研發單位: | LSCM研發中心 |
概要: | 這種子項目旨在將定性文本信息文集轉化為以圖和聚類結構去量化多元內容之間的用語關 聯。這種量化表示使得能夠在定性文本文集上使用分析技術,以獲得不同但可能更廣泛的 見解,超出由基礎定量交易和物聯網數據監控的恆常操作環境。 從通信和報告方法收集的 文集提供了更廣泛的背景,涵蓋來自世界各地的公共衛生、經濟、政治和社會利益等領 域。 這項研發課題試圖探索使用圖和聚類分析將文本內容的信息空間構建為圖和聚類關係,這 是文本內容之間的可量化鏈接。將利用單個文本段落中的用語關聯從基礎領域特定或應用 程序特定文集構建概念圖或用語到用語的關係。此外,將利用語料庫中文本段落之間的內 容相似性來形成關聯文集群。圖和聚類中的文本信息空間成為一組結構化的用語關聯,以 支持計算分析,以揭示見解、從多個角度監控狀態或執行定性場景分析。這項目還嘗試開 髮用於導航和探索結構化信息空間的分析機制,以幫助使用者深入了解他們感興趣的領 域。將開發無用語關聯導航和摘要機制,以在不同撮要級別的多個角度收集相關內容摘 要,作為對應用程序或特定問題的使用者問題的見解。將進行兩個實驗來演示如何將文本 信息轉換為相應的結構化信息空間以及如何導航結構化空間以獲取對相應分析請求的見 解。一項實驗將使用香港投資推廣署的經濟發展相關數據集。另一個將使用來自 ITF 項目 數據庫的創新發展數據集。 |
項目統籌員: | 吳道賓博士 |
資助金額: | 港幣二百七十萬 |
項目週期: | 2022年3月1日 - 2023年3月30日 |