-
公开(公告)号:CN104765728B
公开(公告)日:2017-07-18
申请号:CN201410009183.3
申请日:2014-01-08
Applicant: 富士通株式会社
Abstract: 本发明涉及对神经网络进行训练的方法和装置以及确定语料库中的词的稀疏特征向量的方法和装置。神经网络包括输入层、隐含层和输出层,输入层表示语料库中的作为当前词的词的原始特征向量,隐含层表示当前词的中间特征向量,输出层表示语料库中的下一词的预测概率。对神经网络进行训练的方法包括:将语料库中的每个词作为当前词,并将当前词的原始特征向量输入到输入层;以及训练神经网络使得下一词的预测概率总体上最高并利用惩罚项使得隐含层的中间特征向量的元素稀疏。
-
公开(公告)号:CN104699685A
公开(公告)日:2015-06-10
申请号:CN201310647831.3
申请日:2013-12-04
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本申请公开了一种模型更新装置及方法、数据处理装置及方法,用于对多模型系统中的目标模型进行更新,其中,多模型系统中的各个模型是针对训练数据集采用不同方式预先训练得到的模型,该模型更新装置包括:伪标签获取单元,使用校准模型对待测数据集进行处理,并将处理的结果作为伪标签;第一特征分布获取单元,基于伪标签获得待测数据集的特征分布;第二特征分布获取单元,基于目标模型获取训练数据集的特征分布;调整单元,基于训练数据集的特征分布和待测数据集的特征分布来调整目标模型的特征空间划分,以使得训练数据集和待测数据集针对该特征空间划分具有类似的分布;以及更新单元,基于调整后的特征空间划分使用训练数据集来更新目标模型。
-
公开(公告)号:CN103870458A
公开(公告)日:2014-06-18
申请号:CN201210526451.X
申请日:2012-12-07
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F16/951 , G06F16/93
Abstract: 本发明公开了一种数据处理装置,包括:链接结构生成单元,被配置为创建基于检索词搜索到的文档中的候选词之间的链接关系,以生成链接结构;潜在主题划分单元,被配置为计算每一个文档中的语句之间的依赖度信息,基于该依赖度信息对每一个文档进行主题划分并获得主题划分在该文档中的权重,其中,所述语句分别包括检索词和/或候选词;词评分单元,被配置为基于链接结构和主题划分对候选词以及候选词的对进行评分,并且将评分提供给潜在主题划分单元以用于计算依赖度信息和进行主题划分;以及控制单元,被配置为控制潜在主题划分单元和词评分单元,使其基于主题划分和评分的相互影响循环迭代操作,直到满足预定条件为止。
-
公开(公告)号:CN104699685B
公开(公告)日:2018-02-09
申请号:CN201310647831.3
申请日:2013-12-04
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本申请公开了一种模型更新装置及方法、数据处理装置及方法,用于对多模型系统中的目标模型进行更新,其中,多模型系统中的各个模型是针对训练数据集采用不同方式预先训练得到的模型,该模型更新装置包括:伪标签获取单元,使用校准模型对待测数据集进行处理,并将处理的结果作为伪标签;第一特征分布获取单元,基于伪标签获得待测数据集的特征分布;第二特征分布获取单元,基于目标模型获取训练数据集的特征分布;调整单元,基于训练数据集的特征分布和待测数据集的特征分布来调整目标模型的特征空间划分,以使得训练数据集和待测数据集针对该特征空间划分具有类似的分布;以及更新单元,基于调整后的特征空间划分使用训练数据集来更新目标模型。
-
公开(公告)号:CN103544186B
公开(公告)日:2017-03-01
申请号:CN201210246688.2
申请日:2012-07-16
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明涉及一种挖掘图片中的主题关键词的方法和设备。挖掘图片中的主题关键词的方法包括:初始检索词识别步骤,识别图片中的关键词作为初始的检索词;候选关键词提取步骤,利用检索词检索与图片相关的主题网页以从中提取候选关键词;检索词选择步骤,根据候选关键词和搜索候选关键词所用的检索词之间的链接关系,从候选关键词中选择一部分候选关键词作为下次的候选关键词提取步骤所用的检索词;以及重复候选关键词提取步骤和检索词选择步骤直到满足预定条件。
-
公开(公告)号:CN106294490A
公开(公告)日:2017-01-04
申请号:CN201510309500.8
申请日:2015-06-08
Applicant: 富士通株式会社
Abstract: 本发明公开了一种对数据样本进行特征增强的方法和装置以及分类器的训练方法和装置。根据本发明的一个方面,对数据样本进行特征增强的方法包括:针对预设的多个类中的每一类,计算多个数据样本的基准分布;计算所述多个数据样本在特征空间上的特征分布;以及基于所述基准分布和所述特征分布,对属于该类的少数数据样本中的至少一部分数据样本的特征进行修改以增强特征。由此,能够增强不均衡数据集中的少数数据样本的特征,从而使得该不均衡的数据集可用于训练诸如分类器的数据挖掘工具,并取得较好的效果。
-
公开(公告)号:CN106294343A
公开(公告)日:2017-01-04
申请号:CN201510240407.6
申请日:2015-05-13
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F16/355
Abstract: 本发明实施例提供一种数据聚类方法、模型融合方法以及装置。所述数据聚类方法包括:利用训练数据进行训练得到多个分类器模型;根据多个分类器模型预测验证数据的类别并得到预测结果矩阵;根据所述验证数据的特征以及所述预测结果矩阵,对所述验证数据的特征空间进行划分以将所述验证数据聚为多个类。本发明实施例不仅考虑数据自身的特征而且考虑不同模型在数据上的预测性能来对数据进行聚类;由此不仅能达到划分数据特征空间的目的,而且使数据特征空间的划分更适合多个模型的融合,能够提高融合系统的性能。
-
公开(公告)号:CN106156783A
公开(公告)日:2016-11-23
申请号:CN201510136857.0
申请日:2015-03-26
Applicant: 富士通株式会社
IPC: G06K9/62
Abstract: 本发明公开了对待测数据样本进行分类的方法和装置。根据本发明的一个方面,对待测数据样本进行分类的方法包括:计算多个分类器中的每个分类器对所述待测数据样本的胜任值;以及根据每个分类器对所述待测数据样本的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。
-
公开(公告)号:CN106033425A
公开(公告)日:2016-10-19
申请号:CN201510106455.6
申请日:2015-03-11
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 提供一种数据处理设备和数据处理方法。数据处理设备包括:获取装置,用于根据预定规则选择历史数据作为训练数据集并且将所述历史数据划分为子训练数据集和子测试数据集,根据所述子训练数据集中数据的属性或属性的组合获取关于数据类型的信息,并且针对每个数据类型,通过利用在该数据类型下去噪后的子训练数据集所训练的分类器对所述子测试数据集进行预测并验证预测结果,以获得具有最优预测结果的最优数据类型;以及训练数据集选择装置,通过在该最优数据类型下对所述训练数据集中的数据进行去噪,来获得类别比例满足预定条件的训练数据集,以通过利用该满足预定条件的训练数据集所训练的分类器对测试数据集进行分类。
-
公开(公告)号:CN104978471A
公开(公告)日:2015-10-14
申请号:CN201410136268.8
申请日:2014-04-04
Applicant: 富士通株式会社
IPC: G06F19/00
Abstract: 本发明公开了一种链接强度计算方法和链接强度计算设备。该方法包括:针对给定二部图中的选定链接,构建其N级完备子图,其中第0级子图包括该选定链接及其两端的两节点,第n+1级子图包括该二部图中的、以第n级子图中的所有链接两端的节点作为端点的链接及其两端的节点,其中N为预定正整数,且N>2,n为正整数,且N-2≥n≥0,分别计算该选定链接两端的两节点与第N-2级子图中的同类节点之间的相似度,分别计算该选定链接两端的两节点与第N-2级子图中的同类节点之间的共同链接程度值;以及基于该相似度和共同链接程度值、以及该选定链接两端的两节点与第N-2级子图中的异类节点之间链接的强度初始值,利用针对该二部图的链接强度模型,计算该选定链接的强度值。
-
-
-
-
-
-
-
-
-