训练神经网络的方法和装置以及确定稀疏特征向量的方法

    公开(公告)号:CN104765728B

    公开(公告)日:2017-07-18

    申请号:CN201410009183.3

    申请日:2014-01-08

    Abstract: 本发明涉及对神经网络进行训练的方法和装置以及确定语料库中的词的稀疏特征向量的方法和装置。神经网络包括输入层、隐含层和输出层,输入层表示语料库中的作为当前词的词的原始特征向量,隐含层表示当前词的中间特征向量,输出层表示语料库中的下一词的预测概率。对神经网络进行训练的方法包括:将语料库中的每个词作为当前词,并将当前词的原始特征向量输入到输入层;以及训练神经网络使得下一词的预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏。

    对序列进行处理的装置和方法

    公开(公告)号:CN103729528B

    公开(公告)日:2017-06-16

    申请号:CN201210390510.5

    申请日:2012-10-15

    Abstract: 本发明涉及对序列进行处理的装置和方法。对序列进行处理的装置包括:指示性子序列提取单元,被配置用于从序列中提取待预测子序列之前的、对待预测子序列有指示性作用的指示性子序列;种子提取单元,被配置用于从序列中提取与指示性子序列最相似的子序列作为种子;第一子序列提取单元,被配置用于从序列中提取跟随在种子之后的以下第一子序列:该第一子序列和种子之间的位置关系与待预测子序列和指示性子序列之间的位置关系相同,且该第一子序列与待预测子序列等长;以及类似子序列提取单元,被配置用于从序列中提取与第一子序列有类似的变化趋势的多个子序列,以用于预测待预测子序列。

    确定微博与给定实体的相关性的方法和装置

    公开(公告)号:CN103164428B

    公开(公告)日:2016-01-20

    申请号:CN201110414476.6

    申请日:2011-12-13

    Abstract: 本发明涉及确定微博与给定实体的相关性的方法和装置。确定多个微博中的每个微博与给定实体的相关性的方法包括:提取多个微博中的每个微博的特征;根据所提取的特征确定微博之间的相似度;以及利用所确定的微博之间的相似度,基于半监督分类器来确定多个微博中的每个微博与给定实体的相关性。

    模型更新装置及方法、数据处理装置及方法、程序

    公开(公告)号:CN104699685A

    公开(公告)日:2015-06-10

    申请号:CN201310647831.3

    申请日:2013-12-04

    Abstract: 本申请公开了一种模型更新装置及方法、数据处理装置及方法,用于对多模型系统中的目标模型进行更新,其中,多模型系统中的各个模型是针对训练数据集采用不同方式预先训练得到的模型,该模型更新装置包括:伪标签获取单元,使用校准模型对待测数据集进行处理,并将处理的结果作为伪标签;第一特征分布获取单元,基于伪标签获得待测数据集的特征分布;第二特征分布获取单元,基于目标模型获取训练数据集的特征分布;调整单元,基于训练数据集的特征分布和待测数据集的特征分布来调整目标模型的特征空间划分,以使得训练数据集和待测数据集针对该特征空间划分具有类似的分布;以及更新单元,基于调整后的特征空间划分使用训练数据集来更新目标模型。

    用于名称消岐聚类的装置和方法

    公开(公告)号:CN102654881B

    公开(公告)日:2014-10-22

    申请号:CN201110056065.4

    申请日:2011-03-03

    Abstract: 提供了用于名称消岐聚类的装置和方法。对名称训练集进行数据处理的装置包括:用于确定至少两个名称训练集中每个名称训练集的代表相似度的装置,代表相似度为名称训练集中的文本间相似度的代表值;用于针对至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值的装置;以及用于根据至少两个名称训练集中的每个名称训练集的代表相似度和优选相似度阈值拟合表示代表相似度与优选相似度阈值之间对应关系的函数的装置。

    数据处理装置、数据处理方法和程序

    公开(公告)号:CN103870458A

    公开(公告)日:2014-06-18

    申请号:CN201210526451.X

    申请日:2012-12-07

    CPC classification number: G06F16/951 G06F16/93

    Abstract: 本发明公开了一种数据处理装置,包括:链接结构生成单元,被配置为创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构;潜在主题划分单元,被配置为计算每一个文档中的语句之间的依赖度信息,基于该依赖度信息对每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;词评分单元,被配置为基于链接结构和主题划分对候选词以及候选词的对进行评分,并且将评分提供给潜在主题划分单元以用于计算依赖度信息和进行主题划分;以及控制单元,被配置为控制潜在主题划分单元和词评分单元,使其基于主题划分和评分的相互影响循环迭代操作,直到满足预定条件为止。

    信息抽取方法和装置
    57.
    发明授权

    公开(公告)号:CN102073653B

    公开(公告)日:2013-06-19

    申请号:CN200910226105.8

    申请日:2009-11-20

    Abstract: 本发明公开了一种信息抽取方法和装置。其中该信息抽取方法包括:a)获取第一评价信息的初始种子;b)确定与第一评价信息的种子关联的第二评价信息;c)根据与第一评价信息的种子关联出现的第二评价信息的权重来确定新的第二评价信息的种子;d)确定与第二评价信息的种子关联的第一评价信息;e)根据与第二评价信息的种子关联出现的第一评价信息的权重来确定新的第一评价信息的种子;f)判断是否满足迭代结束条件,如果否,则又执行步骤b)至e),否则输出所获得的第一评价信息和第二评价信息。此外,本发明还公开了一种相应的信息抽取装置。

    提取相似子时间序列的方法和装置

    公开(公告)号:CN102880621A

    公开(公告)日:2013-01-16

    申请号:CN201110203979.9

    申请日:2011-07-14

    Abstract: 本发明涉及用于从时间序列提取与基准序列相似的子时间序列的方法和装置。其中,用于从时间序列提取与基准序列相似的子时间序列的方法包括:分别根据时间序列和基准序列的变化趋势对时间序列和基准序列进行变换;将变换后的时间序列分割成多个子时间序列;针对多个子时间序列中的每个子时间序列,计算每个子时间序列与变换后的基准序列之间的编辑距离;以及根据计算出的编辑距离从多个子时间序列中提取与基准序列相似的子时间序列。

    一种分批聚类方法和系统
    59.
    发明公开

    公开(公告)号:CN102867006A

    公开(公告)日:2013-01-09

    申请号:CN201110189562.1

    申请日:2011-07-07

    Abstract: 本发明实施例提供一种分批聚类方法和系统,所述方法包括:按照预定策略对要聚类的文档进行分批;对分批后的每一批文档进行聚类,得到每一批文档的聚类结果;对每一批文档的聚类结果进行凝聚性处理,得到每一批文档的凝聚性处理结果;将除第一批文档以外的每一批文档的凝聚性处理结果中的每一类与上一批文档的凝聚性处理结果中的类合并,得到所述要聚类的文档的分批聚类结果。本实施例的分批聚类方法,通过对要聚类的文档进行分批聚类、批聚类结果的凝聚性处理以及批凝聚性处理结果的合并,提高了聚类性能,实现了增量式的聚类。

    对来自传感器网络的数据包进行同步的装置和方法

    公开(公告)号:CN102857333A

    公开(公告)日:2013-01-02

    申请号:CN201110190236.2

    申请日:2011-06-28

    Abstract: 一种对来自传感器网络的数据包进行同步的装置和方法。该装置包括:输入单元,其被配置为从至少两个传感器接收带有时间戳的数据包;输出时间确定单元,其被配置为将每个数据包的时间戳指示的时间与时延的和确定为数据包的最早输出时间,该时延取决于希望的数据包到达率;以及输出单元,其被配置为在存在最早输出时间早于当前时间的未输出数据包的情况下,按照时间戳指示的时间从早到晚的顺序输出这些未输出数据包。

Patent Agency Ranking