形成用于生成文档模板的合并树的方法以及装置

    公开(公告)号:CN102375847A

    公开(公告)日:2012-03-14

    申请号:CN201010260747.2

    申请日:2010-08-17

    Abstract: 本发明涉及一种形成用于生成文档模板的合并树的方法以及装置,所述方法包括以下步骤:相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。

    识别网页节点类型的方法和装置

    公开(公告)号:CN102375829A

    公开(公告)日:2012-03-14

    申请号:CN201010254598.9

    申请日:2010-08-13

    Abstract: 本发明涉及一种识别网页节点类型的方法和装置。其中,将网页转换为网页节点的序列,并利用适于序列化对象的分类器对所述序列中的网页节点进行分类,从而获得网页节点的候选类型。根据本发明的实施方式,能够识别网页节点的类型,从而有助于网页内容的抽取。

    网页内容提取方法和装置
    133.
    发明公开

    公开(公告)号:CN102236658A

    公开(公告)日:2011-11-09

    申请号:CN201010157766.2

    申请日:2010-04-26

    Abstract: 本发明公开了一种网页内容提取方法和装置。该网页内容提取装置包括:网页分割部分,被配置成对网页进行分割,得到至少一个布局块;布局块集合生成部分,被配置成在所述布局块中,找出具有相同宽度的布局块,得到至少一个布局块集合,各集合的布局块具有不同的宽度;布局块确定部分,被配置成确定具有最多布局块的布局块集合;内容提取部分,被配置成基于所述具有最多布局块的布局块集合来提取网页内容。

    信息发布系统和信息发布方法

    公开(公告)号:CN101520784B

    公开(公告)日:2011-09-28

    申请号:CN200810080954.2

    申请日:2008-02-29

    Inventor: 夏迎炬 于浩 邹纲

    CPC classification number: G06F17/30867

    Abstract: 本发明涉及信息发布服务的系统和方法。所述系统包括:查询条件确定组件,根据用户输入和用户模型构建查询条件,所述用户模型可用于确定用户的特征;搜索组件,用于基于所述查询条件进行查询;查询结果处理组件,对所述搜索组件所得到的查询结果进行处理,向用户提供处理过的信息;以及发布组件,对用户编辑完成的要发布的信息进行发布。

    产生抽取模板的方法、设备和抽取网页内容的方法和设备

    公开(公告)号:CN101833554A

    公开(公告)日:2010-09-15

    申请号:CN200910127231.8

    申请日:2009-03-09

    Inventor: 夏迎炬 张姝 于浩

    Abstract: 产生抽取模板的方法、设备和抽取网页内容的方法和设备。生成网页内容抽取模板的方法包括:根据一个网页建立文档对象模型树,以作为初始的联合树;根据与所述网页结构相似的多个输入网页中的每个输入网页,建立文档对象模型树,以作为输入树;计算每个所述输入树和所述联合树之间的最大对齐关系;将所述输入树中每个对齐节点的内容累计到所述联合树中的相应对齐节点,并且根据所述输入树中的每个对齐节点在联合树中的相应对齐节点的位置以及输入树中的未对齐节点和对齐节点的位置关系,将所述输入树的未对齐节点插入到联合树中;确定所述联合树中最可能具有期望文本内容的节点;和选择所述联合树中包含所确定的节点的子树作为所述网页内容抽取模板。

    词典生成装置以及信息检索装置

    公开(公告)号:CN101571852A

    公开(公告)日:2009-11-04

    申请号:CN200810091300.X

    申请日:2008-04-28

    Inventor: 夏迎炬 于浩

    Abstract: 本发明涉及词典生成装置以及信息检索装置。所述词典生成装置包括:词频统计部,用于统计在包括关注语言和对比语言的多语语料中,所述关注语言的关注词条的词频以及所述关注词条的对比词条的词频,所述对比词条是所述关注词条的所述对比语言的翻译词;词频相似度计算单元,计算所述关注词条的词频和所述对比词条的词频的词频相似度;以及词条选择单元,根据所述词频相似度计算单元计算出的词频相似度,确定字典用词条。

Patent Agency Ranking