-
公开(公告)号:CN111353297B
公开(公告)日:2023-12-29
申请号:CN202010132576.9
申请日:2020-02-29
Applicant: 北京工业大学
IPC: G06F40/258 , G06F16/33 , G06F16/36 , G06F16/35
Abstract: 基于领域话题交互密度的生物医学文献主题抽取方法属于生物医学文本挖掘技术领域,对于领域知识库的自动构建与持续更新、文献精准推荐以及促进生物医学相关领域的发展等具有重要的意义。提出基于领域话题交互密度进行文献主题抽取方法,根据领域术语词典和初始语料集建立领域话题队列,不断发现新话题补充领域词典,进而构建话题交互队列,基于正性话题交互队列进行话题交互密度聚类,选择高密度区域划分为簇,得到话题聚集区,再对聚集区内的话题多样性和交互性进行度量,根据主题活跃度生成高质量的文献主题。最后通过语料集中抽取文献主题的准确率统计图观察主题抽取方法的准确性和可靠性。该方法可以有效提高文献主题抽取算法的性能。
-
公开(公告)号:CN111353297A
公开(公告)日:2020-06-30
申请号:CN202010132576.9
申请日:2020-02-29
Applicant: 北京工业大学
IPC: G06F40/258 , G06F16/33 , G06F16/36 , G06F16/35
Abstract: 基于领域话题交互密度的生物医学文献主题抽取方法属于生物医学文本挖掘技术领域,对于领域知识库的自动构建与持续更新、文献精准推荐以及促进生物医学相关领域的发展等具有重要的意义。提出基于领域话题交互密度进行文献主题抽取方法,根据领域术语词典和初始语料集建立领域话题队列,不断发现新话题补充领域词典,进而构建话题交互队列,基于正性话题交互队列进行话题交互密度聚类,选择高密度区域划分为簇,得到话题聚集区,再对聚集区内的话题多样性和交互性进行度量,根据主题活跃度生成高质量的文献主题。最后通过语料集中抽取文献主题的准确率统计图观察主题抽取方法的准确性和可靠性。该方法可以有效提高文献主题抽取算法的性能。
-