-
公开(公告)号:CN100478961C
公开(公告)日:2009-04-15
申请号:CN200710121877.6
申请日:2007-09-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种从短文本中发现新词的方法,包括以下步骤:获取短文本中所有多个连续字符或词语,构成候选新词集合;确定符合预先设定规则的候选新词;将候选新词作为查询关键词,在搜索引擎中进行精确搜索和模糊搜索,获取返回结果的数量和前多条精确搜索结果记录;利用搜索引擎精确搜索返回结果数、模糊搜索结果数、精确搜索前多条结果记录等判断候选新词是否为新词。本发明所述方法能够发现短文本中出现的新词,即便该新词在短文本中就只出现一次,同时新词发现的准确率也很高。
-
-
公开(公告)号:CN101131705A
公开(公告)日:2008-02-27
申请号:CN200710175229.9
申请日:2007-09-27
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均大于某个预先设定的阈值,则将该字符串作为新词输出;否则在搜索引擎网站对字符串进行精确搜索和模糊搜索,若精确搜索返回结果数量大于一定阈值,和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值,和/或精确搜索返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值,则将该字符串作为新词输出。本发明既能够发现在语料中出现频次较高的新词,也能够发现在语料中出现频次较低的新词,同时新词发现的准确率较高。
-
公开(公告)号:CN101118556A
公开(公告)日:2008-02-06
申请号:CN200710121877.6
申请日:2007-09-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种从短文本中发现新词的方法,包括以下步骤:获取短文本中所有多个连续字符或词语,构成候选新词集合;确定符合预先设定规则的候选新词;将候选新词作为查询关键词,在搜索引擎中进行精确搜索和模糊搜索,获取返回结果的数量和前多条精确搜索结果记录;利用搜索引擎精确搜索返回结果数、模糊搜索结果数、精确搜索前多条结果记录等判断候选新词是否为新词。本发明所述方法能够发现短文本中出现的新词,即便该新词在短文本中就只出现一次,同时新词发现的准确率也很高。
-
公开(公告)号:CN100489863C
公开(公告)日:2009-05-20
申请号:CN200710175229.9
申请日:2007-09-27
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均大于某个预先设定的阈值,则将该字符串作为新词输出;否则在搜索引擎网站对字符串进行精确搜索和模糊搜索,若精确搜索返回结果数量大于一定阈值,和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值,和/或精确搜索返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值,则将该字符串作为新词输出。本发明既能够发现在语料中出现频次较高的新词,也能够发现在语料中出现频次较低的新词,同时新词发现的准确率较高。
-
公开(公告)号:CN101122919A
公开(公告)日:2008-02-13
申请号:CN200710121839.0
申请日:2007-09-14
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及自然语言计算机处理领域,提供了一种专业术语抽取方法,首先,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;而后,以划分后的不同领域的专利文献库,组成语料库,并根据专业术语的特点,从语料库中抽取所包含的专业术语。本发明还提出了一种专业术语抽取系统。采用本发明的方法和系统,不仅可以改进专业术语的提取结果,还可以把改进的规则和概率应用到下次提取中,以提高准确率。
-
-
-
-
-