一种全程化Web信息抽取集成方法

    公开(公告)号:CN104408101A

    公开(公告)日:2015-03-11

    申请号:CN201410663862.2

    申请日:2014-11-19

    Applicant: 南京大学

    CPC classification number: G06F16/951

    Abstract: 本发明涉及一种Web信息抽取集成方法,属于计算机技术领域。该方法包括网页浏览导航、网页数据抽取、数据集成处理步骤,能够应用于各种不同的Web信息采集和挖掘分析应用,具有网页自动浏览导航能力和抽取数据的集成处理能力,因此采用本发明后,可以满足人们从Web中挖掘有价值的数据信息、完成深度价值发现的愿望。

    一种通用的Web自动浏览导航方法

    公开(公告)号:CN104361093A

    公开(公告)日:2015-02-18

    申请号:CN201410665797.7

    申请日:2014-11-19

    CPC classification number: G06F17/30873

    Abstract: 本发明涉及一种通用的Web自动浏览导航方法,按如下步骤进行:S1、建立Web自动浏览导航的页面交互模型,所述页面交互模型包括导航链接对象和导航链接调用,所述导航链接对象包括导航链接ID、至少一个导航控件描述和一个目标页面描述;所述导航链接调用包括调用导航链接ID和至少一个导航动作描述,所述调用导航链接ID与导航链接对象中的导航链接ID对应;S2、根据页面交互模型录制用户在Web页面的动作,采集与页面交互模型中匹配的信息形成页面交互规则;S3、自动回放并执行页面交互规则,模拟用户与Web页面的交互操作。本发明完成网页的自动化访问和获取,灵活性强、定位准确且复杂度低、通用性好。

    一种基于小样本半监督学习的网页数据抽取方法

    公开(公告)号:CN103514292A

    公开(公告)日:2014-01-15

    申请号:CN201310465730.4

    申请日:2013-10-09

    Applicant: 南京大学

    CPC classification number: G06F17/2282 G06F17/2765

    Abstract: 本发明公开了一种基于小样本半监督学习的网页数据抽取方法,包括如下步骤:针对来自同一网页模板的相似性网页,选取一组样本网页,由用户手工选择并标注出需要抽取的数据项,称为标注数据项;根据标注数据项在DOM树上所对应的节点,称为标注节点,根据标注数据项在对应DOM树上的不同特征,构造一组关于该标注节点的初始候选特征集合;利用半监督式学习方法,确定初始候选特征集合中的最小关联性特征,推导出对该数据项泛化的抽取规则;对一个网页上拟抽取的每个数据项都进行规则推导,得到该网页上关于这组数据项的抽取规则;将抽取规则作用于相似性网页,抽取出一批数据。本发明能完成网页数据抽取规则的生成和网页数据的自动化抽取处理。

    小样本自动化Web文本数据抽取模板生成与抽取方法

    公开(公告)号:CN102929930A

    公开(公告)日:2013-02-13

    申请号:CN201210357757.7

    申请日:2012-09-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于小样本的自动化Web文本数据抽取模板生成与抽取方法,包括如下步骤:选取一组文本数据样本,该文本数据样本包括多条文本记录;确定比对的单元:利用分隔符切分所述文本记录,使得所述文本记录成为分隔符和单词间隔的序列,该序列称为原始文本序列;在所述原始文本序列中找到一个与其它原始文本序列相似度最高的序列,称为核心序列;将每条原始文本序列以所述核心序列为标准,逐一对齐到一起,形成一组由多个对齐的数据栏衔接而成的对齐文本序列;对每个数据栏计算信息熵,用信息熵识别出该数据栏是模板字段栏或数据字段栏,由此得出模板;利用所述模板完成文本数据的抽取。本发明能自动完成细粒度的文本数据的抽取处理。

    一种全程化Web信息抽取集成方法

    公开(公告)号:CN104408101B

    公开(公告)日:2018-01-09

    申请号:CN201410663862.2

    申请日:2014-11-19

    Applicant: 南京大学

    Abstract: 本发明涉及一种Web信息抽取集成方法,属于计算机技术领域。该方法包括网页浏览导航、网页数据抽取、数据集成处理步骤,能够应用于各种不同的Web信息采集和挖掘分析应用,具有网页自动浏览导航能力和抽取数据的集成处理能力,因此采用本发明后,可以满足人们从Web中挖掘有价值的数据信息、完成深度价值发现的愿望。

Patent Agency Ranking