项目编号: | ITP/052/21LP |
项目标题: | 基于图和聚类的文本分析技术去发掘在经济与创新发展 文集中具有意义的关系模式 |
研发单位: | LSCM 研发中心 |
概要: | 这种子项目旨在将定性文本信息文集转化为以图和聚类结构去量化多元内容之间的用语关 联。这种量化表示使得能够在定性文本文集上使用分析技术,以获得不同但可能更广泛的 见解,超出由基础定量交易和物联网数据监控的恒常操作环境。从通信和报告方法收集的 文集提供了更广泛的背景,涵盖来自世界各地的公共卫生、经济、政治和社会利益等领 域。 这项研发课题试图探索使用图和聚类分析将文本内容的信息空间构建为图和聚类关系,这 是文本内容之间的可量化链接。将利用单个文本段落中的用语关联从基础领域特定或应用 程序特定文集构建概念图或用语到用语的关系。此外,将利用语料库中文本段落之间的内 容相似性来形成关联文集群。图和聚类中的文本信息空间成为一组结构化的用语关联,以 支持计算分析,以揭示见解、从多个角度监控状态或执行定性场景分析。这项目还尝试开 发用于导航和探索结构化信息空间的分析机制,以帮助使用者深入了解他们感兴趣的领 域。将开发无用语关联导航和摘要机制,以在不同撮要级别的多个角度收集相关内容摘 要,作为对应用程序或特定问题的使用者问题的见解。将进行两个实验来演示如何将文本 信息转换为相应的结构化信息空间以及如何导航结构化空间以获取对相应分析请求的见 解。一项实验将使用香港投资推广署的经济发展相关数据集。另一个将使用来自 ITF 项目 数据库的创新发展数据集。 |
项目统筹员: | 吴道宾博士 |
资助金额: | 港币二百七十万 |
项目周期: | 2022年3月1日 - 2023年3月30日 |