Gaia系统中面向融合计算的数据缓存装置与系统

    公开(公告)号:CN113934759B

    公开(公告)日:2024-05-17

    申请号:CN202111201901.3

    申请日:2021-10-15

    Abstract: 本发明公开了Gaia系统中面向融合计算的数据缓存装置与系统,是在Gaia系统中修改数据源算子、数据shuffle虚算子、维表关联计算算子进行实现,涉及分布式大数据处理技术领域。具体包括:Gaia系统中面向融合计算的全量缓存装置和增量缓存装置、以及由若干全量缓存装置构成的分布式缓存系统、由若干增量缓存装置构成的分布式缓存系统和由若干全量缓存装置与增量缓存装置混合构成的分布式缓存系统。每一个装置和系统的应用都将提高Gaia计算系统的缓存扩展能力,扩充整个Gaia计算系统所能缓存的批数据规模上限,进而提高系统所支持的缓存数据上限,提升Gaia系统单位时间内的混合计算效率,降低批数据查询延迟,更有利于处理海量数据的计算。

    Gaia系统中面向融合计算的数据缓存装置与系统

    公开(公告)号:CN113934759A

    公开(公告)日:2022-01-14

    申请号:CN202111201901.3

    申请日:2021-10-15

    Abstract: 本发明公开了Gaia系统中面向融合计算的数据缓存装置与系统,是在Gaia系统中修改数据源算子、数据shuffle虚算子、维表关联计算算子进行实现,涉及分布式大数据处理技术领域。具体包括:Gaia系统中面向融合计算的全量缓存装置和增量缓存装置、以及由若干全量缓存装置构成的分布式缓存系统、由若干增量缓存装置构成的分布式缓存系统和由若干全量缓存装置与增量缓存装置混合构成的分布式缓存系统。每一个装置和系统的应用都将提高Gaia计算系统的缓存扩展能力,扩充整个Gaia计算系统所能缓存的批数据规模上限,进而提高系统所支持的缓存数据上限,提升Gaia系统单位时间内的混合计算效率,降低批数据查询延迟,更有利于处理海量数据的计算。

    一种基于Gaia系统的数据分类方法

    公开(公告)号:CN113609361A

    公开(公告)日:2021-11-05

    申请号:CN202110961564.1

    申请日:2021-08-20

    Abstract: 本发明提供一种基于Gaia系统的数据分类方法,所述方法基于超限学习机实现,Gaia系统由于其更新的底层流处理计算架构和多种全局优化与执行优化技术,相比于其他分布式计算系统具有更好的执行效率。在批处理模式下可实现海量吞吐,在流处理模式下可实现极速响应;另外,由于超限学习机是一种单隐层前馈神经网络,相比于其他的学习机具有更快的学习速度;将上述两种优势进行结合,可使得本发明实现更高效率的数据分类。再者通过构建的初始数据集UCollection自行判断判定启动批处理环境或流处理环境,用户在使用该学习机进行数据分类时可不用关心数据的类型与来源,只需关注对数据的处理过程即可,为用户的使用带来了极大的便利。

    一种基于乐观容错方法的迭代器

    公开(公告)号:CN110795265B

    公开(公告)日:2021-04-02

    申请号:CN201911021197.6

    申请日:2019-10-25

    Abstract: 本发明公开一种基于乐观容错方法的迭代器,属于大数据环境下的分布式迭代计算技术领域,该迭代器包括增量迭代器和批量迭代器,综合考虑了不同大小的迭代任务和不同故障率的迭代计算任务,引入一个补偿函数,系统使用该函数重新初始化丢失的分区。发生故障时,系统暂停当前迭代,忽略失败的任务,并将丢失的计算重新分配给新获取的节点,调用分区上的补偿函数以恢复一致状态并恢复执行。对于故障频率较低的情况,大大减少了计算的延迟,提高了迭代处理效率。对于故障频率较高的情况,该迭代器可以保证迭代处理效率不低于优化前的迭代器。该乐观容错迭代器不用添加任务额外的操作,有效降低了容错开销。

    一种基于双缀过滤的大数据相似性连接方法

    公开(公告)号:CN105677757B

    公开(公告)日:2019-03-26

    申请号:CN201511020637.8

    申请日:2015-12-30

    Applicant: 东北大学

    Abstract: 本发明提供一种基于双缀过滤的大数据相似性连接方法,包括:提取不同数据源的文本格式数据,得到待清洗的实体记录;对实体记录中的元素进行词频统计并对实体记录中的元素按词频升序排序;将实体记录前缀中的每一个元素作为该实体记录的索引,对实体记录建立倒排索引表;对同一个索引内的实体记录对进行双缀过滤相似性连接,得到相似度大于相似度阈值的实体记录对,实现分布式计算。本发明利用实体记录对中前后缀中元素位置信息实现过滤,极大地降低了候选集合的大小,针对不同大小的数据源以及不同阈值的情况,双缀过滤可以达到良好的时间效果。并且双缀过滤可以实现面向大数据的分布式计算,可以将其应用于分布式计算中,提高大数据清洗效率。

    一种基于时序图预测的制造业数据监控频率调整方法

    公开(公告)号:CN119046670B

    公开(公告)日:2025-02-11

    申请号:CN202411533360.8

    申请日:2024-10-31

    Applicant: 东北大学

    Abstract: 本发明提供一种基于时序图预测的制造业数据监控频率调整方法,涉及制造业多渠道数据动态自适应监控技术领域。本发明提出的技术方案中考虑了制造业多渠道变量的数据特点,针对其特征进行数据处理,可以最大化还原原始数据的特征;所设计的基于图注意力网络和多层感知机的节点值预测模型可以充分学习各变量的时序信息并且考虑了变量之间的相互影响,能够实现更准确的变量趋势预测;所设计的基于趋势变化置信度的监控频率调整,具有深度感知所有变量的整体趋势的能力,从而实现了监控频率的快速响应调整、趋势变化的精准聚焦。

    一种基于时序图预测的制造业数据监控频率调整方法

    公开(公告)号:CN119046670A

    公开(公告)日:2024-11-29

    申请号:CN202411533360.8

    申请日:2024-10-31

    Applicant: 东北大学

    Abstract: 本发明提供一种基于时序图预测的制造业数据监控频率调整方法,涉及制造业多渠道数据动态自适应监控技术领域。本发明提出的技术方案中考虑了制造业多渠道变量的数据特点,针对其特征进行数据处理,可以最大化还原原始数据的特征;所设计的基于图注意力网络和多层感知机的节点值预测模型可以充分学习各变量的时序信息并且考虑了变量之间的相互影响,能够实现更准确的变量趋势预测;所设计的基于趋势变化置信度的监控频率调整,具有深度感知所有变量的整体趋势的能力,从而实现了监控频率的快速响应调整、趋势变化的精准聚焦。

    一种基于同配性增强的图神经网络方法

    公开(公告)号:CN117933341B

    公开(公告)日:2024-07-23

    申请号:CN202410319788.6

    申请日:2024-03-20

    Abstract: 本发明提供一种基于同配性增强的图神经网络方法,涉及机器学习和深度学习技术领域。该方法具体包括:获取原始图的图数据,计算图数据中各节点的度并选取脆弱节点,选取需要删除边的节点,进而选定原始图中需要删除的边,构建增强后的同配图;训练条件变分自编码器,并利用训练好的条件变分自编码器生成增广特征矩阵,采用有监督损失函数计算预测结果;采用梯度下降更新训练好的条件变分自编码器中的生成参数,并开始迭代直至生成参数收敛为止,选择符合精度要求的增广特征矩阵,并利用级联的卷积层确定特征表示矩阵,再将其输入残差网络得到最终的预测结果,完成节点的分类;本发明通过增强图的同配性以提高图神经网络的鲁棒性和泛化能力。

    一种针对中英神经机器翻译模型的数据投毒样本生成器

    公开(公告)号:CN117973400A

    公开(公告)日:2024-05-03

    申请号:CN202410153185.3

    申请日:2024-02-02

    Applicant: 东北大学

    Abstract: 本发明提供一种针对中英神经机器翻译模型的数据投毒样本生成器,涉及数据投毒技术领域。本发明包括获取句子序列的依存关系之类的句法信息;将句子序列与处理后输入到BERT模型中获取句子序列的特征向量以及句子序列中每个单词的特征向量;基于依存关系构建图;使用图注意力网络获取上下文语义特征向量;获取单词实体的特征向量;将各个特征向量融合为多特征融合特征向量;多特征融合特征向量送入关系分类器进行关系分类;接入大模型;使用大模型依据得到的关系生成中英双语句对的样本。本发明能够高效高质量的代替人工生成针对中英神经机器翻译模型生成数据投毒样本。

    一种Gaia系统中面向迭代计算的并行度动态调整方法

    公开(公告)号:CN113835896B

    公开(公告)日:2024-03-22

    申请号:CN202111149214.1

    申请日:2021-09-29

    Abstract: 本发明提供一种Gaia系统中面向迭代计算的并行度动态调整方法,涉及分布式大数据计算系统及迭代计算技术领域。该方法不需要事先预测作业所需资源,而是在作业执行过程中进行迭代资源的动态调整。如果作业执行过程中出现Slot资源不足或占用过高的情况,则根据用户预先设定的资源利用率目标进行相应的Slot资源扩容,使得作业所需的迭代资源得到满足。如果作业执行过程中出现Slot资源浪费的情况,则根据用户预设的资源利用率目标进行相应的Slot资源进行缩容,使得迭代作业所占用的Slot资源数量进行相应的减少。该并行度动态调整方法不需要在作业执行之前就执行相似的作业,也不需要执行专门的作业短示例,无需额外过多的预测时间。

Patent Agency Ranking