-
公开(公告)号:CN107544958A
公开(公告)日:2018-01-05
申请号:CN201710566573.4
申请日:2017-07-12
Applicant: 清华大学
IPC: G06F17/27
Abstract: 本发明提供术语抽取方法和装置,用于解决基于统计信息抽取获得术语的方法对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性的问题。方法包括:抽取第一语料中的名词和名词短语,作为候选术语集合T;根据百科语料和候选术语集合T,获得候选术语的嵌入表示;根据候选术语的嵌入表示,计算候选术语间的语义相关度;以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V)。其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。本发明极大地提高了术语抽取的性能。
-
公开(公告)号:CN107544958B
公开(公告)日:2020-02-18
申请号:CN201710566573.4
申请日:2017-07-12
Applicant: 清华大学
IPC: G06F40/30 , G06F40/284
Abstract: 本发明提供术语抽取方法和装置,用于解决基于统计信息抽取获得术语的方法对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性的问题。方法包括:抽取第一语料中的名词和名词短语,作为候选术语集合T;根据百科语料和候选术语集合T,获得候选术语的嵌入表示;根据候选术语的嵌入表示,计算候选术语间的语义相关度;以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V)。其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。本发明极大地提高了术语抽取的性能。
-