小样本自动化Web文本数据抽取模板生成与抽取方法

    公开(公告)号:CN102929930A

    公开(公告)日:2013-02-13

    申请号:CN201210357757.7

    申请日:2012-09-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于小样本的自动化Web文本数据抽取模板生成与抽取方法,包括如下步骤:选取一组文本数据样本,该文本数据样本包括多条文本记录;确定比对的单元:利用分隔符切分所述文本记录,使得所述文本记录成为分隔符和单词间隔的序列,该序列称为原始文本序列;在所述原始文本序列中找到一个与其它原始文本序列相似度最高的序列,称为核心序列;将每条原始文本序列以所述核心序列为标准,逐一对齐到一起,形成一组由多个对齐的数据栏衔接而成的对齐文本序列;对每个数据栏计算信息熵,用信息熵识别出该数据栏是模板字段栏或数据字段栏,由此得出模板;利用所述模板完成文本数据的抽取。本发明能自动完成细粒度的文本数据的抽取处理。

    基于句号特征字串的中文网页重复文档检测和过滤方法

    公开(公告)号:CN102945244A

    公开(公告)日:2013-02-27

    申请号:CN201210359942.X

    申请日:2012-09-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于句号特征字串的中文网页重复文档检测和过滤方法,包括如下步骤:提取待检测网页的句号特征字串;利用所述句号特征字串对待检测网页进行模板信息过滤以便保留和提取网页主题文本内容;计算所述网页主题文本内容的相似度,判定网页之间的重复关系和包含关系;将具有重复关系和包含关系的网页进行聚类。本发明针对中文网页,尤其是中文新闻网页,首先寻找有效的检测特征,能有效检测出网页上的有效正文部分,过滤掉网页上的广告等与主题正文内容无关的噪音部分;在此基础上,解决两两文档之间的相似性度量问题以及文档重复检测问题;最后解决大规模重复文档检测时的并行化处理问题。

Patent Agency Ranking