-
公开(公告)号:CN114780541A
公开(公告)日:2022-07-22
申请号:CN202210339704.6
申请日:2022-04-01
IPC: G06F16/22
Abstract: 本申请涉及数据流实时处理技术领域,提供了一种微批流处理系统中的数据分区方法、装置、计算机设备、存储介质和计算机程序产品。本申请通过频率感知缓冲技术来使得批分区前准备工作所需时间最小化,遍历平衡二叉树可以得到一个键及其频率相关信息的有序列表,减少了处理阶段的排序时间,在批分区阶段通过将问题抽象为经典装箱问题,限制了键的碎片化程度,使得数据块之间的基数差异最小化,并保持各数据块大小相等,实现了对数据分区的负载平衡,在处理阶段把问题抽象为可变容量装箱问题,使用最差适应算法来分配键簇,保证了任务间的负载平衡,可以在不增加延迟的情况下大幅提高数据处理吞吐量。
-
公开(公告)号:CN114780541B
公开(公告)日:2024-04-12
申请号:CN202210339704.6
申请日:2022-04-01
IPC: G06F16/22
Abstract: 本申请涉及数据流实时处理技术领域,提供了一种微批流处理系统中的数据分区方法、装置、计算机设备、存储介质和计算机程序产品。本申请通过频率感知缓冲技术来使得批分区前准备工作所需时间最小化,遍历平衡二叉树可以得到一个键及其频率相关信息的有序列表,减少了处理阶段的排序时间,在批分区阶段通过将问题抽象为经典装箱问题,限制了键的碎片化程度,使得数据块之间的基数差异最小化,并保持各数据块大小相等,实现了对数据分区的负载平衡,在处理阶段把问题抽象为可变容量装箱问题,使用最差适应算法来分配键簇,保证了任务间的负载平衡,可以在不增加延迟的情况下大幅提高数据处理吞吐量。
-
公开(公告)号:CN115659007A
公开(公告)日:2023-01-31
申请号:CN202211151849.X
申请日:2022-09-21
Applicant: 浙江大学
IPC: G06F16/9535 , G06F16/9536 , G06N3/006 , G06Q50/00 , H04L51/42 , H04L51/52
Abstract: 本发明公开了一种基于多样性的动态影响力传播种子最小化方法,基于一个双向自适应贪婪算法的框架,采用基于鞅的影响力最大化算法(IMM)和基于鞅的多样性影响力最大化算法(DIMM)实现,算法核心是使用一种随机产生反向影响草图(RI‑Sketch)的采样方法,用于估计影响力扩散和多样性函数增益,具有良好的近似保证。本发明解决了如何以最小的成本在最少时间内使得影响力传播达到特定阈值的问题,克服了传统方法不能有效考虑多样性问题以及算法本身缺乏动态选择过程的弊端,可以在一定的扩散模型下有效选取合适的种子集合。
-
公开(公告)号:CN115659007B
公开(公告)日:2023-11-14
申请号:CN202211151849.X
申请日:2022-09-21
Applicant: 浙江大学
IPC: G06F16/9535 , G06F16/9536 , G06N3/006 , G06Q50/00 , H04L51/42 , H04L51/52
Abstract: 本发明公开了一种基于多样性的动态影响力传播种子最小化方法,基于一个双向自适应贪婪算法的框架,采用基于鞅的影响力最大化算法(IMM)和基于鞅的多样性影响力最大化算法(DIMM)实现,算法核心是使用一种随机产生反向影响草图(RI‑Sketch)的采样方法,用于估计影响力扩散和多样性函数增益,具有良好的近似保证。本发明解决了如何以最小的成本在最少时间内使得影响力传播达到特定阈值的问题,克服了传统方法不能有效考虑多样性问题以及算法本身缺乏动态选择过程的弊端,可以在一定的扩散模型下有效选取合适的种子集合。
-
-
-