数据样本的特征增强方法和装置及分类器训练方法和装置

    公开(公告)号:CN106294490A

    公开(公告)日:2017-01-04

    申请号:CN201510309500.8

    申请日:2015-06-08

    Abstract: 本发明公开了一种对数据样本进行特征增强的方法和装置以及分类器的训练方法和装置。根据本发明的一个方面,对数据样本进行特征增强的方法包括:针对预设的多个类中的每一类,计算多个数据样本的基准分布;计算所述多个数据样本在特征空间上的特征分布;以及基于所述基准分布和所述特征分布,对属于该类的少数数据样本中的至少一部分数据样本的特征进行修改以增强特征。由此,能够增强不均衡数据集中的少数数据样本的特征,从而使得该不均衡的数据集可用于训练诸如分类器的数据挖掘工具,并取得较好的效果。

    数据聚类方法、模型融合方法以及装置

    公开(公告)号:CN106294343A

    公开(公告)日:2017-01-04

    申请号:CN201510240407.6

    申请日:2015-05-13

    CPC classification number: G06F16/355

    Abstract: 本发明实施例提供一种数据聚类方法、模型融合方法以及装置。所述数据聚类方法包括:利用训练数据进行训练得到多个分类器模型;根据多个分类器模型预测验证数据的类别并得到预测结果矩阵;根据所述验证数据的特征以及所述预测结果矩阵,对所述验证数据的特征空间进行划分以将所述验证数据聚为多个类。本发明实施例不仅考虑数据自身的特征而且考虑不同模型在数据上的预测性能来对数据进行聚类;由此不仅能达到划分数据特征空间的目的,而且使数据特征空间的划分更适合多个模型的融合,能够提高融合系统的性能。

    对待测数据样本进行分类的方法和装置

    公开(公告)号:CN106156783A

    公开(公告)日:2016-11-23

    申请号:CN201510136857.0

    申请日:2015-03-26

    Abstract: 本发明公开了对待测数据样本进行分类的方法和装置。根据本发明的一个方面,对待测数据样本进行分类的方法包括:计算多个分类器中的每个分类器对所述待测数据样本的胜任值;以及根据每个分类器对所述待测数据样本的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。

    数据处理设备和数据处理方法

    公开(公告)号:CN106033425A

    公开(公告)日:2016-10-19

    申请号:CN201510106455.6

    申请日:2015-03-11

    Inventor: 孙健 夏迎炬 杨铭

    Abstract: 提供一种数据处理设备和数据处理方法。数据处理设备包括:获取装置,用于根据预定规则选择历史数据作为训练数据集并且将所述历史数据划分为子训练数据集和子测试数据集,根据所述子训练数据集中数据的属性或属性的组合获取关于数据类型的信息,并且针对每个数据类型,通过利用在该数据类型下去噪后的子训练数据集所训练的分类器对所述子测试数据集进行预测并验证预测结果,以获得具有最优预测结果的最优数据类型;以及训练数据集选择装置,通过在该最优数据类型下对所述训练数据集中的数据进行去噪,来获得类别比例满足预定条件的训练数据集,以通过利用该满足预定条件的训练数据集所训练的分类器对测试数据集进行分类。

    链接强度计算方法和链接强度计算设备

    公开(公告)号:CN104978471A

    公开(公告)日:2015-10-14

    申请号:CN201410136268.8

    申请日:2014-04-04

    Abstract: 本发明公开了一种链接强度计算方法和链接强度计算设备。该方法包括:针对给定二部图中的选定链接,构建其N级完备子图,其中第0级子图包括该选定链接及其两端的两节点,第n+1级子图包括该二部图中的、以第n级子图中的所有链接两端的节点作为端点的链接及其两端的节点,其中N为预定正整数,且N>2,n为正整数,且N-2≥n≥0,分别计算该选定链接两端的两节点与第N-2级子图中的同类节点之间的相似度,分别计算该选定链接两端的两节点与第N-2级子图中的同类节点之间的共同链接程度值;以及基于该相似度和共同链接程度值、以及该选定链接两端的两节点与第N-2级子图中的异类节点之间链接的强度初始值,利用针对该二部图的链接强度模型,计算该选定链接的强度值。

    数据处理方法和数据处理设备

    公开(公告)号:CN103678407A

    公开(公告)日:2014-03-26

    申请号:CN201210358626.0

    申请日:2012-09-24

    CPC classification number: G06F17/30253

    Abstract: 提供了一种数据处理方法和数据处理设备,该方法包括:图片识别步骤,用于对图片进行识别,以获得多个识别结果词,并根据特定组合形式从多个识别结果词生成一个或多个检索词;初始化步骤,用于对利用检索词进行检索而获得的网页进行初始化,以获得多个语句;主题相关性确定步骤,用于确定所获得的各个语句之间的主题相关性;主题段落划分步骤,用于基于所确定的主题相关性将多个语句划分为多个段落并确定各个段落的主题性值;以及主题段落选择步骤,用于基于确定的各段落的主题性值,从多个段落中选择满足预定条件的主题段落。根据本发明的实施例,能够高效准确地获取与图片相关的网页的主题段落并确定图片的主题,有利于信息检索、集成和共享。

    数据处理方法和设备
    18.
    发明公开

    公开(公告)号:CN103577414A

    公开(公告)日:2014-02-12

    申请号:CN201210254434.5

    申请日:2012-07-20

    CPC classification number: G06F16/951

    Abstract: 本发明公开了一种数据处理方法和设备,该方法包括:图片识别步骤,用于从图片识别关键词作为初始的检索词;网页和候选关键词获取步骤,用于在搜索引擎中利用检索词进行搜索来获取网页并从网页中挖掘候选关键词;评级步骤,用于基于检索词和/或候选关键词与网页之间的链接关系,对检索词和/或候选关键词以及网页进行评级;以及检索词选择步骤,用于基于评级结果从候选关键词中选择网页和候选关键词获取步骤中下次所用的检索词,重复执行网页和候选关键词获取步骤、评级步骤和检索词选择步骤,直到满足预定条件。根据本发明实施例,可以提高数据处理效率,更准确地从图片挖掘主题关键词和主题网页,从而有利于向用户进行后续的扩展应用和服务推荐。

    用于数据预测的模型选择设备和方法

    公开(公告)号:CN104679754B

    公开(公告)日:2018-01-02

    申请号:CN201310616088.5

    申请日:2013-11-27

    Abstract: 提供一种用于数据预测的模型选择设备和方法。该模型选择设备包括:矩阵分解单元,被配置为对预测矩阵进行奇异值分解,其中,预测矩阵的行/列向量是样本向量,列/行向量是对应维度的特征向量,样本向量之一是包含待预测特征序列的待预测向量;模型选择单元,被配置为基于由矩阵分解单元通过进行奇异值分解获得的、能够反映预测矩阵的样本向量的子矩阵来选择要应用于待预测特征序列的预测的模型。根据本公开的方案可以降低矩阵计算维度、减少噪声,从而达到自动、准确地选择预测模型的效果。

    模型融合方法、模型融合设备和分类方法

    公开(公告)号:CN106156161A

    公开(公告)日:2016-11-23

    申请号:CN201510179002.6

    申请日:2015-04-15

    Abstract: 公开了一种模型融合方法、模型融合设备和分类方法,该模型融合方法包括:分类阈值确定步骤,确定多个分类模型中的每个的用于对多个训练样本进行分类的分类阈值;空间划分步骤,针对多个分类模型中的每个,将该分类模型关于多个训练样本的输出得分根据各个输出得分的概率密度划分成多个子空间;置信度确定步骤,针对多个分类模型中的每个,基于所划分的多个子空间,确定多个子空间内的各个单元的置信度,该置信度表示各个单元的输出得分的置信水平;以及分类阈值融合步骤,基于多个分类模型中的每个的预定权重和各个分类模型的分类阈值,对多个分类模型的分类阈值进行融合。根据本公开的实施例,可以有效地实现多模型融合,以优化分类性能。

Patent Agency Ranking