网络服务构建方法和设备以及网页数据抽取方法和设备

    公开(公告)号:CN103838747A

    公开(公告)日:2014-06-04

    申请号:CN201210479166.7

    申请日:2012-11-22

    CPC classification number: G06F16/958

    Abstract: 本发明公开了一种网络服务构建方法和设备以及网页数据抽取方法和设备。所述网络服务构建方法包括:收集与深层网页的访问有关的数据,所述数据包括HTTP消息、JS事件、堆栈快照;在所收集的HTTP消息中,搜索服务相关参数,并将搜索到的参数分为用户输入参数、显式参数、隐式参数;构建能够生成显式参数的第一XPath;构建能够生成隐式参数的JS代码;构建能够生成最终的深层网页返回结果的第二XPath;以及根据JS事件、堆栈快照和所观察的HTTP消息的顺序,构建表示服务内部流程的结构;其中所述用户输入参数、JS代码、第一和第二XPath、表示服务内部流程的结构构成所述网络服务。

    数据聚类方法和装置
    282.
    发明授权

    公开(公告)号:CN101989289B

    公开(公告)日:2014-05-07

    申请号:CN200910161158.6

    申请日:2009-08-06

    Inventor: 吴科 夏迎炬 于浩

    Abstract: 本发明提供了数据聚类方法和装置。所述数据聚类方法可包括:初始聚类步骤:对多个数据样本进行初始聚类;标注对象选取步骤:根据初始聚类的结果选取所述多个数据样本中的一个或多个作为标注对象;标注信息获取步骤:获取针对所述标注对象的标注信息;及二次聚类步骤:将所述标注信息作为约束信息对所述多个数据样本进行二次聚类。

    信息处理方法和信息处理设备

    公开(公告)号:CN103678418A

    公开(公告)日:2014-03-26

    申请号:CN201210362152.7

    申请日:2012-09-25

    Inventor: 缪庆亮 孟遥 于浩

    CPC classification number: G06F17/2765 G06F17/2785

    Abstract: 公开了信息处理方法和信息处理设备,该方法包括:候选语义关键词提取步骤,用于对输入文本进行分词以从文本提取候选语义关键词;权重计算步骤,用于计算提取的候选语义关键词的权重;语义关键词选择步骤,用于基于算出的权重,根据预定规则从提取的候选语义关键词中选择语义关键词;链接关系确定步骤,用于确定选择的语义关键词与预定语义知识库中的概念间的链接关系;及文本语义图构建步骤,用于基于确定的链接关系、语义知识库中的概念间的语义关系及根据预定推理规则确定的语义关键词与语义知识库中其他概念间的关系,构建表示文本中的语义关键词与语义知识库中的概念间的关系的文本语义图。根据本发明,能够高效地进行信息集成、检索和共享。

    多词单元提取方法和设备及人工神经网络训练方法和设备

    公开(公告)号:CN103678318A

    公开(公告)日:2014-03-26

    申请号:CN201210320806.X

    申请日:2012-08-31

    CPC classification number: G06F17/2705 G06F17/2785 G06N3/08

    Abstract: 本申请公开了一种多词单元提取方法和设备及人工神经网络训练方法和设备。提取多词单元的方法包括:针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的语言学特征作为特征量;将特征量作为参数输入到人工神经网络中;采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一和第二可能性判断该分词是否为多词单元的一部分;提取相邻的两个或更多个被判断为多词单元的一部分的分词以形成多词单元;以及获取与当前分词块相邻的先前分词块的判断的结果作为反馈信息,并且将反馈信息也作为当前分词块中的分词的特征量。

    挖掘图片中的主题关键词的方法和设备

    公开(公告)号:CN103544186A

    公开(公告)日:2014-01-29

    申请号:CN201210246688.2

    申请日:2012-07-16

    CPC classification number: G06F16/5846 G06K9/6814

    Abstract: 本发明涉及一种挖掘图片中的主题关键词的方法和设备。挖掘图片中的主题关键词的方法包括:初始检索词识别步骤,识别图片中的关键词作为初始的检索词;候选关键词提取步骤,利用检索词检索与图片相关的主题网页以从中提取候选关键词;检索词选择步骤,根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为下次的候选关键词提取步骤所用的检索词;以及重复候选关键词提取步骤和检索词选择步骤直到满足预定条件。

    确定语料与实体的相关性的方法和装置及分类器训练方法

    公开(公告)号:CN103514194A

    公开(公告)日:2014-01-15

    申请号:CN201210212662.6

    申请日:2012-06-21

    Inventor: 张姝 孟遥 于浩

    CPC classification number: G06F17/30864

    Abstract: 本发明公开了一种确定语料与实体的相关性的方法和装置及分类器训练方法。所述确定相关性的方法包括:利用通用分类器基于从作为未标注语料的第二组语料提取的通用特征对第二组语料进行分类,以确定第二组语料中的每个语料与第一给定实体的相关性,从而得到作为对第二组语料的标注结果的机器标注语料;基于所述通用特征和从机器标注语料中选取的与第一给定实体相关的补充特征,结合实体名称相关的启发式规则,利用机器标注语料,训练针对第一给定实体的自适应分类器;以及基于从第一组语料提取的通用特征和所述补充特征,结合实体名称相关的启发式规则,利用训练好的自适应分类器,确定第一组语料中的每个语料与第一给定实体的相关性。

    数据处理方法和设备
    287.
    发明公开

    公开(公告)号:CN103514168A

    公开(公告)日:2014-01-15

    申请号:CN201210203751.4

    申请日:2012-06-15

    Inventor: 张波 孟遥 于浩

    CPC classification number: G06F17/30864 G06F17/3071

    Abstract: 一种数据处理方法和设备,该方法包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中重复执行属性设定步骤、第一分类器调整步骤及分类步骤,直至第一分类器的分类结果满足预定条件为止。根据本发明,可以通过自适应方式调整分类模型,提高了数据处理效率和信息获取的准确度。

    分布式计算方法和分布式计算系统

    公开(公告)号:CN103403698A

    公开(公告)日:2013-11-20

    申请号:CN201180069012.4

    申请日:2011-03-04

    CPC classification number: G06F9/46 G06F9/5061 G06F15/17318 G06F2209/5017

    Abstract: 本发明公开一种分布式计算方法和分布式计算系统。根据一个实施例的分布式计算方法包括:对输入任务流进行分布式计算;将所述分布式计算的计算结果进行归约;以及将所归约的计算结果存储到归约缓存中。根据一个实施例的分布式计算系统包括:分布式计算装置,用于进行分布式计算;多个归约单元,所述归约单元用于对所述分布式计算的计算结果进行归约处理;一个或更多个归约缓存,用于存储归约的计算结果;以及归约控制装置,用于控制所述计算结果到所述归约缓存的归约及对归约缓存的访问。

    文本行检测方法和装置
    289.
    发明授权

    公开(公告)号:CN102054271B

    公开(公告)日:2013-11-20

    申请号:CN200910221163.1

    申请日:2009-11-02

    Abstract: 本发明公开了一种文本行检测方法和装置。所述文本行检测方法包括:灰度分解步骤:对灰度图像进行灰度分解,以获得所述灰度图像的文本层;笔划提取步骤:对所述灰度图像进行笔划提取,以获得所述灰度图像的笔划层;一致性验证步骤:验证所述文本层和所述笔划层中的连通域的一致性,并且基于验证结果从所述文本层中去除属于所述灰度图像的背景区域的连通域;以及文本行生成步骤:将去除了属于所述灰度图像的背景区域的连通域的所述文本层中的连通域组织成文本行。本发明的文本行检测方法和装置能够有效和高效地检测出呈现在图像或视频帧中的具有相对复杂的背景的文本行。

    拒识方法和拒识装置
    290.
    发明授权

    公开(公告)号:CN102279927B

    公开(公告)日:2013-10-23

    申请号:CN201010195920.5

    申请日:2010-06-08

    Abstract: 本发明公开了一种基于拒识阈值映射对拒识判决进行优化的拒识方法和拒识装置。根据本发明一个实施例的拒识方法包括:从样本集合中搜索与中间识别结果相匹配的样本组;使用与匹配的样本组相对应的拒识阈值映射函数计算拒识阈值;以及根据计算的拒识阈值对识别结果进行拒识处理。

Patent Agency Ranking