生成与维护网页内容抽取模板的方法和设备

    公开(公告)号:CN102073654A

    公开(公告)日:2011-05-25

    申请号:CN200910226108.1

    申请日:2009-11-20

    Abstract: 本发明提供了生成与维护网页内容抽取模板的方法和设备。所述生成网页内容抽取模板的装置包括:输入单元;权重计算单元,被配置成计算各个输入树中的每种类型的节点的权重;最大对齐关系计算单元;合并单元;确定单元;和选择单元。所述维护网页内容抽取模板的装置包括:相似度计算单元,计算出相似度序列;统计量计算单元,利用预定大小的窗口遍历所述相似度序列并计算窗口中的统计量;统计量判断单元,根据计算的统计量来判断网页内容抽取模板是否已不适应输入网页;和重新计算单元。本发明可以高效地自动生成网页内容抽取模板,并在由于网页发生变化而导致抽取模板失效或者准确度下降时,可以快速地自动重新生成网页内容抽取模板。

    数据聚类方法和装置
    2.
    发明授权

    公开(公告)号:CN101989289B

    公开(公告)日:2014-05-07

    申请号:CN200910161158.6

    申请日:2009-08-06

    Inventor: 吴科 夏迎炬 于浩

    Abstract: 本发明提供了数据聚类方法和装置。所述数据聚类方法可包括:初始聚类步骤:对多个数据样本进行初始聚类;标注对象选取步骤:根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取步骤:获取针对所述标注对象的标注信息;及二次聚类步骤:将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。

    数据聚类方法和装置
    3.
    发明公开

    公开(公告)号:CN101989289A

    公开(公告)日:2011-03-23

    申请号:CN200910161158.6

    申请日:2009-08-06

    Inventor: 吴科 夏迎炬 于浩

    Abstract: 本发明提供了数据聚类方法和装置。所述数据聚类方法可包括:初始聚类步骤:对多个数据样本进行初始聚类;标注对象选取步骤:根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取步骤:获取针对所述标注对象的标注信息;及二次聚类步骤:将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。

    生成与维护网页内容抽取模板的方法和设备

    公开(公告)号:CN102073654B

    公开(公告)日:2012-12-19

    申请号:CN200910226108.1

    申请日:2009-11-20

    Abstract: 本发明提供了生成与维护网页内容抽取模板的方法和设备。所述生成网页内容抽取模板的装置包括:输入单元;权重计算单元,被配置成计算各个输入树中的每种类型的节点的权重;最大对齐关系计算单元;合并单元;确定单元;和选择单元。所述维护网页内容抽取模板的装置包括:相似度计算单元,计算出相似度序列;统计量计算单元,利用预定大小的窗口遍历所述相似度序列并计算窗口中的统计量;统计量判断单元,根据计算的统计量来判断网页内容抽取模板是否已不适应输入网页;和重新计算单元。本发明可以高效地自动生成网页内容抽取模板,并在由于网页发生变化而导致抽取模板失效或者准确度下降时,可以快速地自动重新生成网页内容抽取模板。

Patent Agency Ranking