构建标注网页语料库的方法及装置

    公开(公告)号:CN102831131A

    公开(公告)日:2012-12-19

    申请号:CN201110172092.8

    申请日:2011-06-16

    Abstract: 本发明实施例公开了一种构建标注网页语料库的方法及装置,所述方法包括:针对预先选取的初始种子网页生成初始种子标注网页语料;按照初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页;按照初始种子网页标注语料对相关种子网页进行标注,得到相关种子标注网页语料;判断相关种子标注网页语料和初始种子标注网页语料是否满足预设条件,如果是,则将相关种子标注网页语料和初始种子标注网页语料组合为标注网页语料库;如果否,则将相关种子标注网页语料作为初始种子标注网页语料,并执行从搜索引擎中获取预设个数的相关种子网页的步骤。通过本发明实施例,能够在给定的少量种子标注语料的情况下,形成大规模的标准标注语料。

    用于统计目标观众的收视率的方法和装置

    公开(公告)号:CN102655607A

    公开(公告)日:2012-09-05

    申请号:CN201110062124.9

    申请日:2011-03-04

    Abstract: 本发明涉及用于统计目标观众的收视率的方法和装置。用于统计目标观众的收视率的方法包括:分类体系构建步骤,构建分类体系;知识库构建步骤,对分类体系进行组织以构建知识库;收视数据获取步骤,获取收视数据;收视数据表示步骤,按照所述分类体系中所包括的与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点;分类器构造步骤,按照与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器;以及收视率统计步骤,利用所构造的分类器统计目标观众的收视率。通过本发明,可以提高收视率的准确性并可以统计针对目标观众的收视率。

    识别网页节点类型的方法和装置

    公开(公告)号:CN102375829A

    公开(公告)日:2012-03-14

    申请号:CN201010254598.9

    申请日:2010-08-13

    Abstract: 本发明涉及一种识别网页节点类型的方法和装置。其中,将网页转换为网页节点的序列,并利用适于序列化对象的分类器对所述序列中的网页节点进行分类,从而获得网页节点的候选类型。根据本发明的实施方式,能够识别网页节点的类型,从而有助于网页内容的抽取。

    网页内容提取方法和装置

    公开(公告)号:CN102236658A

    公开(公告)日:2011-11-09

    申请号:CN201010157766.2

    申请日:2010-04-26

    Abstract: 本发明公开了一种网页内容提取方法和装置。该网页内容提取装置包括:网页分割部分,被配置成对网页进行分割,得到至少一个布局块;布局块集合生成部分,被配置成在所述布局块中,找出具有相同宽度的布局块,得到至少一个布局块集合,各集合的布局块具有不同的宽度;布局块确定部分,被配置成确定具有最多布局块的布局块集合;内容提取部分,被配置成基于所述具有最多布局块的布局块集合来提取网页内容。

    用于统计目标观众的收视率的方法和装置

    公开(公告)号:CN102655607B

    公开(公告)日:2016-03-30

    申请号:CN201110062124.9

    申请日:2011-03-04

    Abstract: 本发明涉及用于统计目标观众的收视率的方法和装置。用于统计目标观众的收视率的方法包括:分类体系构建步骤,构建分类体系;知识库构建步骤,对分类体系进行组织以构建知识库;收视数据获取步骤,获取收视数据;收视数据表示步骤,按照所述分类体系中所包括的与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点;分类器构造步骤,按照与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器;以及收视率统计步骤,利用所构造的分类器统计目标观众的收视率。通过本发明,可以提高收视率的准确性并可以统计针对目标观众的收视率。

    网页内容提取方法和装置

    公开(公告)号:CN101937438B

    公开(公告)日:2013-06-05

    申请号:CN200910139745.5

    申请日:2009-06-30

    Abstract: 本发明公开了一种网页内容提取方法和装置,其中该网页内容提取方法,包括如下步骤:对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。本发明开创性地融合了图像布局分析和自然语言处理的相关技术,形成了一个全自动、高效、准确的网页内容提取方案。

    构建标注网页语料库的方法及装置

    公开(公告)号:CN102831131B

    公开(公告)日:2015-02-11

    申请号:CN201110172092.8

    申请日:2011-06-16

    Abstract: 本发明实施例公开了一种构建标注网页语料库的方法及装置,所述方法包括:针对预先选取的初始种子网页生成初始种子标注网页语料;按照初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页;按照初始种子网页标注语料对相关种子网页进行标注,得到相关种子标注网页语料;判断相关种子标注网页语料和初始种子标注网页语料是否满足预设条件,如果是,则将相关种子标注网页语料和初始种子标注网页语料组合为标注网页语料库;如果否,则将相关种子标注网页语料作为初始种子标注网页语料,并执行从搜索引擎中获取预设个数的相关种子网页的步骤。通过本发明实施例,能够在给定的少量种子标注语料的情况下,形成大规模的标准标注语料。

    网页内容提取方法和装置

    公开(公告)号:CN102236658B

    公开(公告)日:2015-01-14

    申请号:CN201010157766.2

    申请日:2010-04-26

    Abstract: 本发明公开了一种网页内容提取方法和装置。该网页内容提取装置包括:网页分割部分,被配置成对网页进行分割,得到至少一个布局块;布局块集合生成部分,被配置成在所述布局块中,找出具有相同宽度的布局块,得到至少一个布局块集合,各集合的布局块具有不同的宽度;布局块确定部分,被配置成确定具有最多布局块的布局块集合;内容提取部分,被配置成基于所述具有最多布局块的布局块集合来提取网页内容,其中,所述内容提取部分被配置成:根据布局块在网页中的位置,在所述具有最多布局块的布局块集合中找出首块和尾块;提取所述首块、所述尾块以及位置在所述首块和所述尾块之间的布局块的内容作为所述网页内容。

    网页内容提取方法和装置

    公开(公告)号:CN101937438A

    公开(公告)日:2011-01-05

    申请号:CN200910139745.5

    申请日:2009-06-30

    Abstract: 本发明公开了一种网页内容提取方法和装置,其中该网页内容提取方法,包括如下步骤:对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。本发明开创性地融合了图像布局分析和自然语言处理的相关技术,形成了一个全自动、高效、准确的网页内容提取方案。

Patent Agency Ranking