-
公开(公告)号:CN104657744A
公开(公告)日:2015-05-27
申请号:CN201510046879.8
申请日:2015-01-29
Applicant: 中国科学院信息工程研究所
IPC: G06K9/62
CPC classification number: G06K9/6256 , G06K9/627
Abstract: 本发明公开了一种基于非确定主动学习的多分类器训练方法及分类方法。本方法为:1)选取或初始化一多分类器;对未标注样本集中的每一样本,利用该多分类器计算该样本的总体信息量Info;所述总体信息量为:模型变更信息量与模型调优信息量之和;2)对该未标注样本集进行聚类,得到J个子类;3)从每个子类中选取总体信息量Info值最小的若干未标注样本;再从所选样本中选取K个样本进行标注后加入到已标注样本集L;4)将更新后的已标注集L作为训练数据重新训练该多分类器;5)迭代执行步骤1)~4)设定次数;然后利用最终得到的多分类器对未标注集进行分类。本发明实现样本信息量的综合评价,从而获得高效化、智能化的多分类器。
-
公开(公告)号:CN104657459A
公开(公告)日:2015-05-27
申请号:CN201510066822.4
申请日:2015-02-09
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30091 , G06F17/30082 , G06F17/30194
Abstract: 本发明公开了一种基于文件粒度的海量数据存储方法。本方法为:1)将数据存储集群划分为多个分区,每一分区具有一分区值;2)对每一部门的记录创建一业务数据表,并设置每一业务数据表中记录的分区规则;3)对于待存储业务数据的每一记录,根据其编号和分区规则将其存储到对应分区的文件中并创建索引文件;然后将该记录的编号、所在文件的路径、所属存储节点编号、存储设备编号存储到元数据文件中。进一步的,本发明创建设定业务数据表之间的视图,根据所述元数据文件,将属于同一业务场景的业务数据表、视图、记录所在分区、索引信息划入到同一数据库中,得到一海量元数据管理模型。本发明既提高了数据管理精度,又提高数据划分、组织灵活性。
-
公开(公告)号:CN103544258A
公开(公告)日:2014-01-29
申请号:CN201310484503.6
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。
-
公开(公告)号:CN103218176A
公开(公告)日:2013-07-24
申请号:CN201310113197.5
申请日:2013-04-02
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种数据处理方法及装置。其中,数据处理方法包括:创建共享内存环,所述共享内存环为存储待操作数据的环形结构空间;在对共享内存环中下一个操作目的单元进行操作前,将所述下一个操作目的单元的操作标志位设置为对应下一个操作的操作类型;判断所述下一个操作目的单元是否能够进行所述下一个操作;根据判断结果对所述下一个操作目的单元中的数据进行处理。本发明的数据处理方法及装置,设计了一种共享内存中的环形数据结构,结合生产者和消费者的数据协调规则和共享内存环覆写机制,基于原子位操作对环的控制标识位进行更新,提高了数据并行处理场景下共享资源的数据读写效率,减小数据同步的开销,从而解决了共享资源读写效率低、同步开销大的问题。
-
公开(公告)号:CN114489964B
公开(公告)日:2025-03-04
申请号:CN202111517469.9
申请日:2021-12-08
Applicant: 中国科学院信息工程研究所
IPC: G06F9/48 , G06N3/098 , G06N3/084 , G06N3/0499
Abstract: 本发明公开了一种基于联邦学习的车载网络信用优先任务卸载方法,其步骤包括:1)EC、CV分别将自己的位置信息和可用资源信息发送给CC;其中,EC为边缘云服务器,CV为车辆网中的车辆,CC为云中心;2)当CV需要进行任务卸载时,发送卸载任务信息给DC;其中,DC为车辆网中的决策中心;3)对于当前一批待处理的卸载任务,DC从CC获取发送卸载任务的各CV的信誉值;然后根据信用值设置各卸载任务的处理优先级,优先为处理优先级高的卸载任务制定任务卸载决策并发送给对应的EC和CV;其中,CC根据CV的行为信息计算对应CV的所述信誉值。本发明将信誉值用在任务卸载决策中,从而实现决策性能的提高。
-
公开(公告)号:CN112257866B
公开(公告)日:2024-09-27
申请号:CN202010940904.8
申请日:2020-09-09
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种GPU上的基于边着色与信息更新率优化的置信传播方法。本方法针对在全局都有较高收敛速度的计算需求,直接使用信息残差大的边对信息残差小的边进行一次着色操作,则信息残差大的边会对与其相连的所有边进行着色,只更新这些信息残差大的边上的信息,降低了每次迭代置信传播的计算量,提升了置信传播算法在整个计算过程中的收敛速度。以及针对在算法稳定后有较高收敛度的计算需求,提出通过逐步降低未收敛信息的更新率,使得算法在整个计算过程中都保持较高的收敛速度,并且算法稳定时有较高的收敛度。本发明提升了置信传播方法整体的运行效率。
-
公开(公告)号:CN111754383B
公开(公告)日:2023-03-10
申请号:CN202010403115.0
申请日:2020-05-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于GPU加速的优化线程调度与分区的强连通图检测方法,为使用异构系统进行强连通图检测的方法,通过将每个warp分成多个虚拟warp并分配多个顶点任务、使用着色分区替换传统的WCC分区等方法平衡了线程分配、增加了每次迭代产生的强连通图数目,从而达到提升算法运行效率的目的。
-
公开(公告)号:CN108388603B
公开(公告)日:2022-05-17
申请号:CN201810113980.4
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F16/22 , G06F16/2458
Abstract: 本发明提供一种基于Spark框架的分布式概要数据结构的构建方法及查询方法,以Spark平台为基础,利用q‑digest结构获得数据区间分布情况,BloomFilter获取组员存在信息,HyperLogLogPlus记录数据基数信息,实现高吞吐低延迟的处理能力,且能够快速响应查询要求,有效适应Spark分布式计算环境,返回误差可控的近似计算结果。本发明还提供一种基于Spark框架的分布式概要数据结构的构建及查询系统。
-
公开(公告)号:CN114461906A
公开(公告)日:2022-05-10
申请号:CN202210024433.5
申请日:2022-01-06
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种聚焦于用户核心兴趣的序列推荐方法及装置,包括获取用户与项目的交互序列以及所述交互序列中每个交互行为对应的时间戳;得到所述交互序列的嵌入矩阵;对所述嵌入矩阵进行自注意力计算,得到每一查询对于所有键的注意力值概率分布;获取每一查询的预先定义固定默认概率分布;根据两个概率分布相似性,得到各查询的活跃性度量;基于所述活跃性度量分别计算各键的注意力值,以构建自注意力矩阵;依据所述自注意力矩阵,得到所述用户的项目推荐结果。本发明通过在嵌入层加入时间间隔,并加入了活跃性度量指标,从而可以自适应地衡量项目与用户核心兴趣之间的相关性,提高了模型表达能力和推荐结果的准确率。
-
公开(公告)号:CN110287150B
公开(公告)日:2021-05-11
申请号:CN201910405408.X
申请日:2019-05-16
Applicant: 中国科学院信息工程研究所
IPC: G06F16/13 , G06F16/16 , G06F16/182
Abstract: 本发明公开了一种大规模存储系统元数据分布式管理方法与系统。本发明将HDFS存储于NameNode内存中的元数据抽象成二维表的结构,以二维表的形式存储在分布式数据库中;抽象后的各二维表之间通过inode_id相互关联。Namenode成为客户端存取元数据的桥梁,客户端首先连接Namenode,Namenode来操作分布式数据库中的元数据,并将元数据返回给客户端。本发明解决了HDFS的单点故障问题。
-
-
-
-
-
-
-
-
-