一种中文新词语的检测方法及其检测系统

    公开(公告)号:CN100555276C

    公开(公告)日:2009-10-28

    申请号:CN200410000651.7

    申请日:2004-01-15

    Inventor: 邹纲 刘群

    Abstract: 本发明涉及一种中文新词语的检测方法及其检测系统。本发明基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时间信息和内容,对其切分并在切分的基础上查找重复串,然后存入原始数据库,再在给定时间的基础上,将原始数据库划分成给定时间以前和给定时间以后的两个数据库,将这两个数据库进行对比,得到新词候选列表,最后的结果由人工确认一下。本发明通过对比寻找某个时间点以后的新词语,可以寻找不限长度和构成的多字词与多字词组成的新词,并利用词的构成规律来滤除垃圾串,具有时效性高的特点。

    一种中文新词语的检测方法及其检测系统

    公开(公告)号:CN1641634A

    公开(公告)日:2005-07-20

    申请号:CN200410000651.7

    申请日:2004-01-15

    Inventor: 邹纲 刘群

    Abstract: 本发明涉及一种中文新词语的检测方法及其检测系统。本发明基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时间信息和内容,对其切分并在切分的基础上查找重复串,然后存入原始数据库,再在给定时间的基础上,将原始数据库划分成给定时间以前和给定时间以后的两个数据库,将这两个数据库进行对比,得到新词候选列表,最后的结果由人工确认一下。本发明通过对比寻找某个时间点以后的新词语,可以寻找不限长度和构成的多字词与多字词组成的新词,并利用词的构成规律来滤除垃圾串,具有时效性高的特点。

Patent Agency Ranking