-
公开(公告)号:CN102622338A
公开(公告)日:2012-08-01
申请号:CN201210045699.4
申请日:2012-02-24
Applicant: 北京工业大学
IPC: G06F17/27
Abstract: 一种短文本间语义距离的计算方法属于汉语文字信息处理技术领域,其特征在于把两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算:在对文本进行包括去除网页标记、变异短文本处理以及分词处理以后得到的一系列词串,根据词语相似度矩阵对两个短文本中的对应的词串进行语义对齐,根据对其过程中的词语调节次数得到了句法结构距离;再利用《同义词词林扩展版》中词语的五级结构,同时引入中文关键词和近义词概念,以便在语义对齐的基础上,用词语为单位,对各词语进行包括插入、删除或替换等五种操作,加入权重后的各种操作次数之和的权值来表示词语串之间的单元语义距离。本发明的文本语义距离的相对正确率要高于经典的编辑距离算法。
-
公开(公告)号:CN102622338B
公开(公告)日:2014-02-26
申请号:CN201210045699.4
申请日:2012-02-24
Applicant: 北京工业大学
IPC: G06F17/27
Abstract: 一种短文本间语义距离的计算方法属于汉语文字信息处理技术领域,其特征在于把两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算:在对文本进行包括去除网页标记、变异短文本处理以及分词处理以后得到的一系列词串,根据词语相似度矩阵对两个短文本中的对应的词串进行语义对齐,根据对其过程中的词语调节次数得到了句法结构距离;再利用《同义词词林扩展版》中词语的五级结构,同时引入中文关键词和近义词概念,以便在语义对齐的基础上,用词语为单位,对各词语进行包括插入、删除或替换等五种操作,加入权重后的各种操作次数之和的权值来表示词语串之间的单元语义距离。本发明的文本语义距离的相对正确率要高于经典的编辑距离算法。
-
公开(公告)号:CN102622405A
公开(公告)日:2012-08-01
申请号:CN201210012475.3
申请日:2012-01-16
Applicant: 北京工业大学
Abstract: 基于语言实义单元数估计的短文本间文本距离的计算方法属于中文短文本信心处理领域,其特征在于,这是用于处理在线评论短文本文本聚类的方法,先去除网页标记,并进行短文本规范化处理,再进行分词处理,将文本转化为词语串,在此基础上以词语为单位,计算两个句子的编辑距离,然后将句子中具有实质意义的词语数定义为实义单元,利用Heap’s法则对句子中的实义单元进行估计,再选择两个句子的实义单元数中较大的实义单元数,用较大的实义单元数对用编辑距离表示的文本距离进行文本长度惩罚,得到一个经过实义单元数惩罚的文本距离,本发明克服了传统方法中利用原始句长处理而带来的误差。
-
公开(公告)号:CN102622405B
公开(公告)日:2013-08-21
申请号:CN201210012475.3
申请日:2012-01-16
Applicant: 北京工业大学
Abstract: 基于语言实义单元数估计的短文本间文本距离的计算方法属于中文短文本信心处理领域,其特征在于,这是用于处理在线评论短文本文本聚类的方法,先去除网页标记,并进行短文本规范化处理,再进行分词处理,将文本转化为词语串,在此基础上以词语为单位,计算两个句子的编辑距离,然后将句子中具有实质意义的词语数定义为实义单元,利用Heap’s法则对句子中的实义单元进行估计,再选择两个句子的实义单元数中较大的实义单元数,用较大的实义单元数对用编辑距离表示的文本距离进行文本长度惩罚,得到一个经过实义单元数惩罚的文本距离,本发明克服了传统方法中利用原始句长处理而带来的误差。
-
-
-