-
公开(公告)号:CN103116573B
公开(公告)日:2015-10-28
申请号:CN201310046647.3
申请日:2013-02-06
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 本发明涉及到一种基于词汇注释的领域词典自动扩充方法,属于自然语言处理技术领域。其步骤为:①通过分析领域词典所属领域间的相关度,生成一棵领域分类树。②为每一个待扩充的领域词典获取一个训练集。③对训练集进行预处理,得到语料特征集。④统计每个节点对应的语料特征集中每个词汇在该语料特征集中出现的次数以及其子节点对应的语料特征集中包含某一词汇的语料特征集的个数。⑤计算各语料特征集中每个词汇的置信度。⑥将新词汇加入到待扩充的领域词典中。本发明提出的基于词汇注释的领域词典自动扩充方法不需要人工搜集领域语料库,因此避免了受领域语料库的质量和规模的局限以及领域语料库非平衡性的影响。
-
公开(公告)号:CN103116573A
公开(公告)日:2013-05-22
申请号:CN201310046647.3
申请日:2013-02-06
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 本发明涉及到一种基于词汇注释的领域词典自动扩充方法,属于自然语言处理技术领域。其步骤为:①通过分析领域词典所属领域间的相关度,生成一棵领域分类树。②为每一个待扩充的领域词典获取一个训练集。③对训练集进行预处理,得到语料特征集。④统计每个节点对应的语料特征集中每个词汇在该语料特征集中出现的次数以及其子节点对应的语料特征集中包含某一词汇的语料特征集的个数。⑤计算各语料特征集中每个词汇的置信度。⑥将新词汇加入到待扩充的领域词典中。本发明提出的基于词汇注释的领域词典自动扩充方法不需要人工搜集领域语料库,因此避免了受领域语料库的质量和规模的局限以及领域语料库非平衡性的影响。
-