-
公开(公告)号:CN112257866B
公开(公告)日:2024-09-27
申请号:CN202010940904.8
申请日:2020-09-09
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种GPU上的基于边着色与信息更新率优化的置信传播方法。本方法针对在全局都有较高收敛速度的计算需求,直接使用信息残差大的边对信息残差小的边进行一次着色操作,则信息残差大的边会对与其相连的所有边进行着色,只更新这些信息残差大的边上的信息,降低了每次迭代置信传播的计算量,提升了置信传播算法在整个计算过程中的收敛速度。以及针对在算法稳定后有较高收敛度的计算需求,提出通过逐步降低未收敛信息的更新率,使得算法在整个计算过程中都保持较高的收敛速度,并且算法稳定时有较高的收敛度。本发明提升了置信传播方法整体的运行效率。
-
公开(公告)号:CN111754383B
公开(公告)日:2023-03-10
申请号:CN202010403115.0
申请日:2020-05-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于GPU加速的优化线程调度与分区的强连通图检测方法,为使用异构系统进行强连通图检测的方法,通过将每个warp分成多个虚拟warp并分配多个顶点任务、使用着色分区替换传统的WCC分区等方法平衡了线程分配、增加了每次迭代产生的强连通图数目,从而达到提升算法运行效率的目的。
-
公开(公告)号:CN108388603B
公开(公告)日:2022-05-17
申请号:CN201810113980.4
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F16/22 , G06F16/2458
Abstract: 本发明提供一种基于Spark框架的分布式概要数据结构的构建方法及查询方法,以Spark平台为基础,利用q‑digest结构获得数据区间分布情况,BloomFilter获取组员存在信息,HyperLogLogPlus记录数据基数信息,实现高吞吐低延迟的处理能力,且能够快速响应查询要求,有效适应Spark分布式计算环境,返回误差可控的近似计算结果。本发明还提供一种基于Spark框架的分布式概要数据结构的构建及查询系统。
-
公开(公告)号:CN114461906A
公开(公告)日:2022-05-10
申请号:CN202210024433.5
申请日:2022-01-06
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种聚焦于用户核心兴趣的序列推荐方法及装置,包括获取用户与项目的交互序列以及所述交互序列中每个交互行为对应的时间戳;得到所述交互序列的嵌入矩阵;对所述嵌入矩阵进行自注意力计算,得到每一查询对于所有键的注意力值概率分布;获取每一查询的预先定义固定默认概率分布;根据两个概率分布相似性,得到各查询的活跃性度量;基于所述活跃性度量分别计算各键的注意力值,以构建自注意力矩阵;依据所述自注意力矩阵,得到所述用户的项目推荐结果。本发明通过在嵌入层加入时间间隔,并加入了活跃性度量指标,从而可以自适应地衡量项目与用户核心兴趣之间的相关性,提高了模型表达能力和推荐结果的准确率。
-
公开(公告)号:CN110287150B
公开(公告)日:2021-05-11
申请号:CN201910405408.X
申请日:2019-05-16
Applicant: 中国科学院信息工程研究所
IPC: G06F16/13 , G06F16/16 , G06F16/182
Abstract: 本发明公开了一种大规模存储系统元数据分布式管理方法与系统。本发明将HDFS存储于NameNode内存中的元数据抽象成二维表的结构,以二维表的形式存储在分布式数据库中;抽象后的各二维表之间通过inode_id相互关联。Namenode成为客户端存取元数据的桥梁,客户端首先连接Namenode,Namenode来操作分布式数据库中的元数据,并将元数据返回给客户端。本发明解决了HDFS的单点故障问题。
-
公开(公告)号:CN104657450B
公开(公告)日:2018-09-25
申请号:CN201510061345.2
申请日:2015-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种面向大数据环境的概要信息动态构建与查询方法及装置。该方法以Count‑Min Sketch方法为基础,采用数据流的第一范数描述数据规模,采用数据的基数值描述数据的分布情况;首先为流式大数据分配一较小空间的Count‑min Sketch结构,随着数据不断加载,当Count‑min Sketch结构记录的数据项个数达到阈值且数值空间基数达到阈值以后,建立新的Count‑min Sketch结构,用以接收后续到来的新数据。本发明能够根据数据量和数值基数自动建立新的Sketch结构,以较高精度统计数据,有效支持流式大数据的高精度的实时统计和分析。
-
公开(公告)号:CN104951503B
公开(公告)日:2018-02-27
申请号:CN201510252988.5
申请日:2015-05-18
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了一种新鲜度敏感的大数据概要信息维护及聚合值查询方法。本方法为:1)对每个时间对象的时间对象数据建立一时间追踪器;2)对于待写入的时间对象数据,根据时间对象映射到对应的追踪器,然后追踪器将对应的时间对象数据划分为多个时间阶段并设置每一时间阶段的误差参数;3)追踪器根据每一时间阶段的误差参数对该时间阶段内的时间对象数据进行采样并保存对该时间追踪器对应的样本集合中。查询时首先根据时间对象的关键字key定位到对应的时间追踪器;然后追踪器根据查询时间信息查找该时间追踪器中的时间阶段,根据找到的时间阶段对应的样本返回查询值。本发明有效管理并查询时间对象数据,支持面向主题的更高层次的计算应用。
-
公开(公告)号:CN104657745B
公开(公告)日:2017-12-15
申请号:CN201510046891.9
申请日:2015-01-29
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种已标注样本的维护方法及双向学习交互式分类方法。本方法一方面采用正向学习从未标注集中选取最有价值的样本,另一方面采用反向学习从已标注集中检测并处理导致模型性能退化潜在噪声,从而优化改善已标注集;本发明通过正向学习与反向学习的有机结合、借助人机交互机制,获得高效、优化的海量数据分类模型,对未标注样本进行分类。本发明通过正向学习与反向学习的有机结合,在高效利用标注信息的同时自动优化标注信息,实现高效化、智能化的交互式分类。
-
公开(公告)号:CN106021290A
公开(公告)日:2016-10-12
申请号:CN201610285422.7
申请日:2016-04-29
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F16/242 , G06F16/29 , G06K9/6215 , G06K9/6285
Abstract: 本发明涉及一种基于多尺度地理信息的社交网络关联挖掘方法。该方法包括:1)获取用户签到数据,对其进行预处理得到结构化数据;2)设定划分地图的不同方法以及每种方法的尺度标准,根据用户签到数据中的GPS数据计算获得其对应的多个位置ID;3)根据签到人数计算获得不同位置的权重,表征不同位置对社交关系预测的贡献;4)利用位置的权重信息进行特征提取,获得所有用户的位置交互特征;5)利用提取的特征训练分类器,得到关系预测模型;6)利用所得的关系预测模型对目标用户进行预测,获得社交网络关系预测结果。本发明通过充分利用位置签到信息来训练获得更鲁棒的预测模型,能够获得理想稳定的预测结果。
-
公开(公告)号:CN104951509A
公开(公告)日:2015-09-30
申请号:CN201510272521.7
申请日:2015-05-25
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F16/90335 , G06F16/182
Abstract: 本发明公开了一种大数据在线交互式查询方法及系统。通过改进MapReduce框架下Map和Reduce之间的数据传递规则,使得Map按照用户定义的计算窗口分块读取并计算计算窗口内的数据,然后直接把计算结果推送给Reduce端,Reduce端在处理完数据后立即返回给用户。以此实现大数据环境下,用户可以根据业务选取不同的属性定义计算窗口,流式返回各个窗口内的计算结果,实现交互式计算的目标。
-
-
-
-
-
-
-
-
-