一种抽取关键词的方法
    11.
    发明公开

    公开(公告)号:CN101872363A

    公开(公告)日:2010-10-27

    申请号:CN201010218156.9

    申请日:2010-06-24

    Inventor: 李蕾 王骏 刘冬雪

    Abstract: 本发明公开了一种抽取关键词的方法,应用于关键词长度较长、且内容较新的文本,该方法包括:首先,将通过现有方法抽取出的所有关键词作为候选关键词集;其次;通过考查各个候选关键词在文本中的关联度,将在文本中出现的所有相邻候选关键词的叠加组合作为候选未登录词集;最后,将部分候选关键词和部分候选未登录词作为最终抽取出的关键词集。由于本发明方法不仅考虑了词语在文本中的权值,而且还考虑了词语在文本中的关联度,因此,对于关键词长度较长、且内容较新的文本来说,采用本发明抽取关键词的方法能够准确地抽取出其中长度较长的关键词,提高了抽取关键词的准确度。

Patent Agency Ranking