一种中文网页新词自动获取方法

    公开(公告)号:CN101706807B

    公开(公告)日:2011-06-01

    申请号:CN200910237979.3

    申请日:2009-11-27

    Applicant: 清华大学

    Abstract: 本发明涉及中文网页新词自动获取的方法,属于互联网数据挖掘技术领域;该方法包括:从Internet采集不同类型的网页,解析出含有时间信息的网页正文文本,并进行预处理,对得到句子片段进行n-gram分词产生词串并统计词频,连同词串的时间信息一并存入原始数据库;根据词频阈值对原始数据库中的词串进行过滤,词频大于等于词频阈值的词串保留;对保留的词串做相邻串比较和父子串比较后进行再过滤,删除与停用词数据库中相同的词串,对得到初选新词串的时间信息进行时序分析,得到新词;还可再包括将由人工标记得到的过滤词串添加到过滤词数据库中。该方法扩大了获取新词的范围,中文分词方法简便易行,处理效率高,并提高了新词发现的准确率和科学性。

    一种基于流聚类的中文网页文本分类方法

    公开(公告)号:CN101727500A

    公开(公告)日:2010-06-09

    申请号:CN201010034107.X

    申请日:2010-01-15

    Applicant: 清华大学

    Abstract: 本发明涉及一种基于流聚类的中文网页文本分类方法,属于互联网数据挖掘技术领域,该方法包括:实时采集网页;去除未处理过的该网页的格式中的标签,解析出网页中各文本的特征信息;将文本内容分割、做ngram分词,形成多个词串;计算每个词串的权值;提取高权值词串,将该高权值词串及其相应权值作为特征向量;将特征向量以及特征信息与已有类进行相似度的计算;并计算得到的总的相似度,将文本归入已有的一类中或建立一个新类;根据已存在的类中的特征项数量,判断是否将该类分裂成两个子类;对已处理的文本记录和已有的类的信息进行储存。本方法针对网页文本的特点充分挖掘了它的有效信息,使该方法具有增量式、快速、有效及更实用的特点。

    一种中文网页新词自动获取方法

    公开(公告)号:CN101706807A

    公开(公告)日:2010-05-12

    申请号:CN200910237979.3

    申请日:2009-11-27

    Applicant: 清华大学

    Abstract: 本发明涉及中文网页新词自动获取的方法,属于互联网数据挖掘技术领域;该方法包括:从Internet采集不同类型的网页,解析出含有时间信息的网页正文文本,并进行预处理,对得到句子片段进行n-gram分词产生词串并统计词频,连同词串的时间信息一并存入原始数据库;根据词频阈值对原始数据库中的词串进行过滤,词频大于等于词频阈值的词串保留;对保留的词串做相邻串比较和父子串比较后进行再过滤,删除与停用词数据库中相同的词串,对得到初选新词串的时间信息进行时序分析,得到新词;还可再包括将由人工标记得到的过滤词串添加到过滤词数据库中。该方法扩大了获取新词的范围,中文分词方法简便易行,处理效率高,并提高了新词发现的准确率和科学性。

Patent Agency Ranking