Gaia系统中的面向图迭代作业的运行时间预测系统及方法

    公开(公告)号:CN113627664A

    公开(公告)日:2021-11-09

    申请号:CN202110890134.5

    申请日:2021-08-04

    Abstract: 本发明公开了Gaia系统中的面向图迭代作业的运行时间预测系统及方法。在作业执行前通过抽样执行来快速捕捉当前图迭代算法的离线特征,包括收敛特征和每次迭代的关键输入特征;在作业执行过程中持续捕捉运行时特征,包括作业参数、资源利用情况以及详细的统计数据;以作业间的相似度为作业匹配和最终预测值计算的依据,主要包括通过抽样执行捕捉到的静态相似度以及真实执行捕捉到的动态相似度。匹配算法可通过制定的相似度评价标准来对算法的特定参数进行训练来使得迭代作业能够自动适应各种相似度。本发明是端对端的运行时间预测方法,综合了图迭代作业的离线特征和运行时特征,能够在较低的训练开销下准确地预测分布式图迭代作业的运行时间。

    一种基于Gaia系统的数据分类方法

    公开(公告)号:CN113609361A

    公开(公告)日:2021-11-05

    申请号:CN202110961564.1

    申请日:2021-08-20

    Abstract: 本发明提供一种基于Gaia系统的数据分类方法,所述方法基于超限学习机实现,Gaia系统由于其更新的底层流处理计算架构和多种全局优化与执行优化技术,相比于其他分布式计算系统具有更好的执行效率。在批处理模式下可实现海量吞吐,在流处理模式下可实现极速响应;另外,由于超限学习机是一种单隐层前馈神经网络,相比于其他的学习机具有更快的学习速度;将上述两种优势进行结合,可使得本发明实现更高效率的数据分类。再者通过构建的初始数据集UCollection自行判断判定启动批处理环境或流处理环境,用户在使用该学习机进行数据分类时可不用关心数据的类型与来源,只需关注对数据的处理过程即可,为用户的使用带来了极大的便利。

    基于LSTM模型和超图的用户行为预测方法及系统

    公开(公告)号:CN113065321A

    公开(公告)日:2021-07-02

    申请号:CN202110420046.9

    申请日:2021-04-19

    Abstract: 本发明公开了一种基于LSTM模型和超图的用户行为预测方法及系统,涉及多人编辑协作技术领域,包括根据多个用户以及用户的交互关系构建用户协作超图;用户协作超图中的节点表示用户,超边表示在协作关系中与超边关联的多个用户的信息编辑交互行为;基于用户协作超图中每个节点的局部邻域信息,构建多个D邻域展开树;D邻域展开树表示为根节点经过不超过D条超边可达的节点子图;根据获取的当前阶段用户协作行为数据以及当前阶段用户协作行为数据关联的D邻域展开树,基于序列学习器,预测在协作关系中下一阶段用户编辑行为是否被接受。本发明能够达到预测多个用户行为的目的。

    一种基于超图超边匹配的分子网络分类方法及系统

    公开(公告)号:CN113033691A

    公开(公告)日:2021-06-25

    申请号:CN202110378057.5

    申请日:2021-04-08

    Abstract: 本发明公开了一种基于超图超边匹配的分子网络分类方法及系统。包括:获取多个分子网络的超图;超图包括有标签超图和无标签超图;对有标签超图和无标签超图进行超边扩展,得到有标签图和无标签图;通过图遍历的方法对有标签图和无标签图中每个结点生成深度子树;得到有标签子树集合和无标签子树集合;采用超边采样方法进行多次采样,得到多个有标签匹配边集和多个无标签匹配边集;根据有标签子树集合、无标签子树集合、多个有标签匹配边集和多个无标签匹配边集,计算有标签超图和无标签超图之间的相似度;根据有标签超图和无标签超图之间的相似度对无标签超图进行分类。本发明使用超图比较方法更容易对分子网络进行比较,从而对分子网络进行分类。

    一种可重叠的社群发现方法

    公开(公告)号:CN112948712A

    公开(公告)日:2021-06-11

    申请号:CN202110326914.7

    申请日:2021-03-26

    Abstract: 本发明公开了一种可重叠的社群发现方法,步骤如下:S1分布式计算图G中的所有极大团,统计极大团的数量信息并将极大团的数量信息发送到所有计算节点中;S2对所有的极大团进行排序和编码,给每个极大团分配唯一的编码确定极大团;S3计算极大团中的子团,将子团发送到不同计算节点中;S4在每个计算节点内,构建反向索引;S5对每个极大团,利用反向索引,计算与每个极大团与其同一个计算节点内有k‑1个共享顶点的极大团,使用并查集将极大团的I D保存在同一个集合中;S6合并不同集群中的并查集,求出相应的派系。采用上述结构的一种可重叠的社群发现方法,增加了系统对大图的处理能力,横向扩展更加容易且成本更低。

    一种基于乐观容错方法的迭代器

    公开(公告)号:CN110795265B

    公开(公告)日:2021-04-02

    申请号:CN201911021197.6

    申请日:2019-10-25

    Abstract: 本发明公开一种基于乐观容错方法的迭代器,属于大数据环境下的分布式迭代计算技术领域,该迭代器包括增量迭代器和批量迭代器,综合考虑了不同大小的迭代任务和不同故障率的迭代计算任务,引入一个补偿函数,系统使用该函数重新初始化丢失的分区。发生故障时,系统暂停当前迭代,忽略失败的任务,并将丢失的计算重新分配给新获取的节点,调用分区上的补偿函数以恢复一致状态并恢复执行。对于故障频率较低的情况,大大减少了计算的延迟,提高了迭代处理效率。对于故障频率较高的情况,该迭代器可以保证迭代处理效率不低于优化前的迭代器。该乐观容错迭代器不用添加任务额外的操作,有效降低了容错开销。

    一种Gaia中支持多作业并行执行的代理方法

    公开(公告)号:CN110891083B

    公开(公告)日:2020-12-04

    申请号:CN201911070906.X

    申请日:2019-11-05

    Abstract: 本发明提供的一种Gaia中支持多作业并行执行的代理方法,在在群的每个节点中Gaia系统内均构建Netty客户端;在主节点上Gaia系统内基于Netty的代理框架构建一个代理端;可以实现在作业收集的过程中,多个客户端与代理端进行独立通信,解决了因物理机不同导致Gaia作业无法互通提交的问题;代理端在接收到作业之后,通过一定的执行多作业的Slot资源分配策略取待合并的作业,对作业合并后再进行执行,该方法使得当前Slot数量能够被最大程度地利用,执行最多的执行计划计划,增大一次作业执行的吞吐量。

    Gaia集群中面向数据分布特征的维表缓存管理方法及系统

    公开(公告)号:CN113626434B

    公开(公告)日:2024-09-27

    申请号:CN202110890099.7

    申请日:2021-08-04

    Abstract: 本发明公开了Gaia集群中面向数据分布特征的维表缓存管理方法及系统,构建了一套从构建到查询再到增量更新的全周期分布式缓存管理机制。包括数据分布特征提取模块和缓存管理模块,缓存管理模块为缓存构建、缓存查询和缓存更新子模块。数据分布特征提取模块从维表数据中抽取数据样本,统计样本数据的p分位点作为全量数据的分布特征。缓存构建子模块,根据统计的p分位点完成路由数组的初始化;利用分段确定方法为每条维表数据确定所属分段;利用索引建立方法为每条维表数据建立索引。缓存查询子模块,采用缓存查询方法,根据流数据记录的关键字从多路平衡跳表中查询相应的维表数据。缓存更新子模块,定义了p个分段跳表之间的平衡调整方法。

    一种可解释图像分类方法及系统
    79.
    发明公开

    公开(公告)号:CN118429713A

    公开(公告)日:2024-08-02

    申请号:CN202410580885.0

    申请日:2024-05-11

    Abstract: 本发明公开了一种可解释图像分类方法及系统,涉及图像分类技术领域,具体步骤为:获取待分类的图像数据;将所述待分类的图像数据输入可解释图像分类模型,获得所属类别的类别标签;所述可解释图像分类模型由基于第一损失函数进行两类迭代训练的分类模型和基于具有超参数的第二损失函数进行两类迭代训练的空间注意力网络构成;将所述类别标签进行输出。本发明能够较明显提高图像分类任务的准确率;且有较好的可解释性,仅使用模型本身的输出即可分析其分类依据。

    一种用于网络流量分类的轻量化图结构数据构造方法

    公开(公告)号:CN118250231A

    公开(公告)日:2024-06-25

    申请号:CN202410393484.4

    申请日:2024-04-02

    Abstract: 本发明公开了一种用于网络流量分类的轻量化图结构数据构造方法,属于网络流量分类领域,包括以下步骤:步骤1、处理原始网络流量,对原始网络流量中的会话进行重构,将原始网络流量中杂乱的数据转换为规整的会话形式的网络流量;步骤2、将生成的会话形式的网络流量,进行图结构信息构建和样本属性生成;图结构信息构建是提取会话形式的网络流量中的通联关系信息,基于一定的策略将用户信息映射为图上的节点,将用户之间的通联关系映射为图上的边,利用节点和边构造出基础的图结构信息;样本属性生成是提取会话中的数据包,以特定的规则构造成高质低维的样本属性;步骤3、将构建好的图结构信息与样本属性结合,获得轻量化的图结构数据样本。

Patent Agency Ranking