确定语料与实体的相关性的方法和装置及分类器训练方法

    公开(公告)号:CN103514194A

    公开(公告)日:2014-01-15

    申请号:CN201210212662.6

    申请日:2012-06-21

    Inventor: 张姝 孟遥 于浩

    CPC classification number: G06F17/30864

    Abstract: 本发明公开了一种确定语料与实体的相关性的方法和装置及分类器训练方法。所述确定相关性的方法包括:利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对第二组语料进行分类,以确定第二组语料中的每个语料与第一给定实体的相关性,从而得到作为对第二组语料的标注结果的机器标注语料;基于所述通用特征和从机器标注语料中选取的与第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用机器标注语料,训练针对第一给定实体的自适应分类器;以及基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,利用训练好的自适应分类器,确定第一组语料中的每个语料与第一给定实体的相关性。

    数据处理方法和设备
    122.
    发明公开

    公开(公告)号:CN103514168A

    公开(公告)日:2014-01-15

    申请号:CN201210203751.4

    申请日:2012-06-15

    Inventor: 张波 孟遥 于浩

    CPC classification number: G06F17/30864 G06F17/3071

    Abstract: 一种数据处理方法和设备,该方法包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中重复执行属性设定步骤、第一分类器调整步骤及分类步骤,直至第一分类器的分类结果满足预定条件为止。根据本发明,可以通过自适应方式调整分类模型,提高了数据处理效率和信息获取的准确度。

    分布式计算方法和分布式计算系统

    公开(公告)号:CN103403698A

    公开(公告)日:2013-11-20

    申请号:CN201180069012.4

    申请日:2011-03-04

    CPC classification number: G06F9/46 G06F9/5061 G06F15/17318 G06F2209/5017

    Abstract: 本发明公开一种分布式计算方法和分布式计算系统。根据一个实施例的分布式计算方法包括:对输入任务流进行分布式计算;将所述分布式计算的计算结果进行归约;以及将所归约的计算结果存储到归约缓存中。根据一个实施例的分布式计算系统包括:分布式计算装置,用于进行分布式计算;多个归约单元,所述归约单元用于对所述分布式计算的计算结果进行归约处理;一个或更多个归约缓存,用于存储归约的计算结果;以及归约控制装置,用于控制所述计算结果到所述归约缓存的归约及对归约缓存的访问。

    基于微博平台的扩展关键词获取方法和设备

    公开(公告)号:CN103164415A

    公开(公告)日:2013-06-19

    申请号:CN201110410180.7

    申请日:2011-12-09

    Inventor: 张波 孟遥 于浩

    Abstract: 本发明公开了一种基于微博平台的扩展关键词获取方法和设备,该方法包括:条目获取步骤,以输入的关键词在微博平台进行搜索,以获取与所输入的关键词相关联的多个条目;微博条目图构建步骤,以多个条目作为节点、以各节点之间的关系作为边,计算微博条目图的各节点和各条边的权重,从而构建微博条目图;关键词袋提取步骤,从多个条目提取关键词袋;以及关键词扩展图构建步骤,以所输入的关键词和关键词袋中的各个关键词作为节点、以所输入的关键词与各个关键词之间的关系作为边,计算关键词扩展图的各节点和各条边的权重,从而构建关键词扩展图。根据本发明的实施例,能够实时地获取扩展关键词,提高了检索效率,有利于更高效地获取知识和信息。

    网页内容提取方法和装置
    125.
    发明授权

    公开(公告)号:CN101937438B

    公开(公告)日:2013-06-05

    申请号:CN200910139745.5

    申请日:2009-06-30

    Abstract: 本发明公开了一种网页内容提取方法和装置,其中该网页内容提取方法,包括如下步骤:对网页的图片进行视觉布局分析,以将所述图片分割为至少一个布局块;对每个布局块进行光学字符识别,以生成所述布局块的识别文本;对所述网页进行分析,以建立所述网页的文档对象模型树;利用所述文档对象模型树中的文本节点的真实文本与所述布局块的识别文本之间的对应关系,将所述文档对象模型树中的每个文本节点映射到所述布局块之一中;以及至少利用所述布局块在所述网页中的位置信息来提取所述网页的正文内容。本发明开创性地融合了图像布局分析和自然语言处理的相关技术,形成了一个全自动、高效、准确的网页内容提取方案。

    预测给定话题的未来发展趋势的方法和装置

    公开(公告)号:CN102999539A

    公开(公告)日:2013-03-27

    申请号:CN201110279874.1

    申请日:2011-09-13

    Abstract: 本发明涉及预测给定话题的未来发展趋势的方法和装置。该方法包括:确定给定话题在多个过去时间段中的每个过去时间段被一个或多个博文提及的次数;根据提及给定话题的博文的博主到多个过去时间段中的每个过去时间段为止发表的博文中所提及的话题,确定博主到多个过去时间段中的每个过去时间段为止的兴趣;估计给定话题与博主到多个过去时间段中的每个过去时间段为止的兴趣之间的相似度;确定博主到多个过去时间段中的每个过去时间段为止的粉丝数量;根据到多个过去时间段中的每个过去时间段为止的相似度和粉丝数量,确定到多个过去时间段中的每个过去时间段为止的粉丝指数;以及根据提及次数和粉丝指数,预测给定话题的未来发展趋势。

    一种获取韵律边界信息的方法及系统

    公开(公告)号:CN102881282A

    公开(公告)日:2013-01-16

    申请号:CN201110204282.3

    申请日:2011-07-15

    Inventor: 张洁 孟遥 于浩

    Abstract: 本发明实施例公开了一种获取韵律边界信息的方法及系统,其中,所述方法包括:获取待标注的文本数据,并获得所述文本数据对应的音频数据;向第一组标注者播放所述音频数据,根据各个标注者的标注结果,获取基于该第一组标注者确定的韵律边界信息;向第二组标注者展现根据所述文本数据生成的句法树,根据各个标注者的标注结果,获取基于该第二组标注者确定的韵律边界信息;将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对,根据比对结果,确定各个位置的韵律边界信息。通过本发明,能够有效地获取到韵律边界信息,进而提高语音合成结果的自然度。

    确定证书类型的方法和装置以及翻译证书的方法和装置

    公开(公告)号:CN102402684A

    公开(公告)日:2012-04-04

    申请号:CN201010291958.2

    申请日:2010-09-15

    Abstract: 本发明公开了一种自动确定证书类型的方法和装置以及一种自动翻译证书的方法和装置。该自动确定证书类型的方法,包括:获取证书图像;提取证书图像的外观特征和/或几何特征;以及根据证书图像的外观特征和/或几何特征来确定证书类型;其中所述外观特征包括证书图像的色彩特征、纹理特征和版面布局特征,所述几何特征包括证书图像的大小特征和长宽比例特征。

Patent Agency Ranking