-
公开(公告)号:CN103049501B
公开(公告)日:2016-08-03
申请号:CN201210528734.8
申请日:2012-12-11
Applicant: 上海大学
Abstract: 本发明公开了一种基于互信息和条件随机场模型的中文领域术语识别方法,其步骤如下:(1)收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;(2)设置字串,计算字串的互信息值;(3)计算字串左右信息熵;(4)定义字串评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串中前一字的评价函数值与后一字评价函数值相比较,逐一对字义字串分词;(5)利用条件随机场训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。
-
公开(公告)号:CN103049501A
公开(公告)日:2013-04-17
申请号:CN201210528734.8
申请日:2012-12-11
Applicant: 上海大学
Abstract: 本发明公开了一种基于互信息和条件随机场模型的中文领域术语识别方法,其步骤如下:(1)收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;(2)设置字串,计算字串的互信息值;(3)计算字串左右信息熵;(4)定义字串评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串中前一字的评价函数值与后一字评价函数值相比较,逐一对字义字串分词;(5)利用条件随机场训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。
-