一种基于统计和规则的特定领域的合成词发现方法

    公开(公告)号:CN103309852A

    公开(公告)日:2013-09-18

    申请号:CN201310237883.3

    申请日:2013-06-14

    Abstract: 本发明属于计算机自然语言处理领域,涉及一种基于统计和规则的特定领域的合成词发现方法。其步骤包括:利用分词系统分词和词性标注,遍历分词结果利用停用词和构词规则过滤,遍历生成原子词的有向图,利用深度遍历排列组合可能的合成词组合并用统计指标和构词规则同时约束,生成合成词候选集供人工筛选,导入合成词进入字典文件供以后使用。本发明的优点有:建立了原子词的有向图,利用深度遍历自动探寻合成词的边界,可以识别出任意长度的合成词;构词规则便于定制和扩展,有良好的移植性;同时具有较高的准确率和召回率,提高汉语分词的准确度;生成的合成词能够更为精确的概念,这也为中文信息处理的深入研究奠定良好的基础。

Patent Agency Ranking