-
公开(公告)号:CN102081598B
公开(公告)日:2012-07-04
申请号:CN201110029493.8
申请日:2011-01-27
Applicant: 北京邮电大学
IPC: G06F17/22
Abstract: 本发明公开了一种检测文本重复的方法:根据一文本中每一个词语的TF值及其是否在标题中出现得到该词语的权值,顺序从文本中取出权值最高的若干词语作为关键词集框架;对于得到关键词集框架的任意两篇文本,依次判断一篇文本关键词集框架中的每一个词语是否在另一篇文本的关键词集框架中,当该词语属于两篇文本的关键词集框架、且在两篇文本中的权值匹配时,将表征匹配程度的匹配值加1,直至一篇文本关键词集框架中最后一个词语,根据得到的匹配值得到两篇文本的相似度;根据相似度及一相似度阈值判断出两篇文本是否为重复的文本。应用本发明所述的检测文本重复的方法,能够有效地检测出信息重复的文本,提高在众多文本中查找有效信息的效率。
-
公开(公告)号:CN102081598A
公开(公告)日:2011-06-01
申请号:CN201110029493.8
申请日:2011-01-27
Applicant: 北京邮电大学
IPC: G06F17/22
Abstract: 本发明公开了一种检测文本重复的方法:根据一文本中每一个词语的TF值及其是否在标题中出现得到该词语的权值,顺序从文本中取出权值最高的若干词语作为关键词集框架;对于得到关键词集框架的任意两篇文本,依次判断一篇文本关键词集框架中的每一个词语是否在另一篇文本的关键词集框架中,当该词语属于两篇文本的关键词集框架、且在两篇文本中的权值匹配时,将表征匹配程度的匹配值加1,直至一篇文本关键词集框架中最后一个词语,根据得到的匹配值得到两篇文本的相似度;根据相似度及一相似度阈值判断出两篇文本是否为重复的文本。应用本发明所述的检测文本重复的方法,能够有效地检测出信息重复的文本,提高在众多文本中查找有效信息的效率。
-