-
公开(公告)号:CN114710444B
公开(公告)日:2023-11-07
申请号:CN202210272368.8
申请日:2022-03-18
Applicant: 北京大学
IPC: H04L47/10 , H04L47/21 , H04L47/32 , H04L45/02 , H04L45/74 , H04L45/7453 , H04L49/25 , H04L49/90 , H04L43/0876 , H04L43/106 , H04L43/16
Abstract: 本发明涉及一种基于塔型摘要和可驱逐流表的数据中心流量统计方法和系统。该方法的步骤包括:将每一个数据包经过一个基于塔型摘要的过滤器,该过滤器判断该数据包是否属于大流;将被认为属于大流的数据包插入流表,如果与原先的流表表项冲突,则驱逐原先的流表表项,并将该数据包插入流表;将驱逐的流表表项依次存入一个环形缓存,当环形缓存中的流表表项到达一个阈值时,将环形缓存中的流表表项生成一个数据包,从环形缓存中取出该数据包,并上送控制面进行流量统计。本发明可以被部署在可编程交换机上,在保证不高估的条件下高效地统计二元组 的流量。
-
公开(公告)号:CN114969023A
公开(公告)日:2022-08-30
申请号:CN202210150431.0
申请日:2022-02-18
Applicant: 北京大学 , 中兴通讯股份有限公司
Abstract: 本发明涉及一种数据库学习型索引构建方法和系统。该方法包括:根据数据关键字和数据存储位置,构建累积分布函数;利用机器学习模型拟合累积分布函数,以获取数据关键字与数据存储位置的关联性,得到学习型索引;根据学习型索引,快速定位待查询的键值所处的位置。本发明能够克服现有的B树数据库索引算法调节难度高自适应能力差、辅助数据结构内存空间占用偏大的问题,能够有效地减少辅助数据结构的内存占用、提高数据库索引的自适应调节能力。
-
公开(公告)号:CN114510474A
公开(公告)日:2022-05-17
申请号:CN202210153039.1
申请日:2022-02-18
Applicant: 中兴通讯股份有限公司 , 北京大学
IPC: G06F16/215 , G06F16/901
Abstract: 本发明公开了一种基于时间衰减的样本删除方法及其装置、存储介质,其中,基于时间衰减的样本删除方法包括:获取多个样本;将样本保存至存储空间,其中,存储空间对应有存储属性,存储属性随着存储空间保存样本的存储时间而改变,不同的存储属性对应有不同的预设删除容量,同一存储属性所对应的预设删除容量随着存储时间而衰减;计算归属于目标存储属性的存储空间中的各个样本的热度值;根据热度值和存储空间的当前预设删除容量,删除存储空间中的样本。根据样本的热度值以及存储空间的预设删除容量删除陈旧的样本,相较于现有技术仅根据样本存储时间的远近删除样本的方案,本发明能够保留陈旧样本中有价值的数据,从而有效提高样本的质量。
-
公开(公告)号:CN108460030B
公开(公告)日:2022-01-11
申请号:CN201710086782.9
申请日:2017-02-17
Applicant: 北京大学
IPC: G06F16/901
Abstract: 本发明涉及一种基于改进的布隆过滤器的集合元素判断方法。该方法在布隆过滤器中插入或查询元素x时,首先计算哈希函数h(x),然后求得一个中间结果G,进而利用中间结果G计算得到所需的k个地址值,如果是插入,将这k个地址值处的比特设为1;若是查询,则检查是否所有地址处的比特都为1,若是则表示元素在该集合中出现,否则表示没有出现过。本发明提供的布隆过滤器的改进方案,可以只计算一次哈希函数,之后再通过高速的位运算,得到所需的所有地址值,从而在较短的时间内完成对集合元素的判断。
-
公开(公告)号:CN107798042B
公开(公告)日:2021-07-06
申请号:CN201710486563.X
申请日:2017-06-23
Applicant: 北京大学
IPC: G06F16/22 , G06F16/23 , G06F16/245 , G06F16/2455
Abstract: 本发明涉及一种基于片内片外两级结构的数据处理方法和频度估计方法。该方法在支持删除操作以及与CM‑sketch具有相同或更快速度的基础上实现更高精确性和更小片上内存占用的Sketch,将其命名为Slim‑Fat Sketch。本发明提出共计六个版本,除了第一代版本之外,每一代版本都是通过对上一个版本进行分析,然后在保证具有上一个版本优点的基础上针对上一个版本的局限性进行改进,最终得到符合预期效果的Sketch设计。本发明的SF‑sketch与已有的Sketch相比占用更小的内存空间,而且在与目前最好的Sketch具有相同速度的基础上提升了精确性,以更有效地实现数据频度估计。
-
公开(公告)号:CN113032389A
公开(公告)日:2021-06-25
申请号:CN201911359685.8
申请日:2019-12-25
IPC: G06F16/22 , G06F16/2455
Abstract: 本申请提供了信息处理的方法和装置。本申请实施例能够根据关键信息获取多个部分关键信息,并在多个节点设备上分布式存储该多个部分关键信息。本申请实施例中第一数据流经过的至少两个节点中的每个节点只需要存储该完整关键信息的部分关键信息,从而降低了关键信息在每个节点中占用的存储空间,进而降低单台节点设备的存储开销。相应的,服务器能够从第一数据流经过的多个节点设备上获取分布式存储的多个部分关键信息,并根据该多个部分关键信息,恢复第一数据流的关键信息,从而完成全量流的测量任务。因此,相对于现有技术的不能够记录关键信息的统计/测量方式,本申请实施例能够有助于支持更多的全量流统计/测量任务。
-
公开(公告)号:CN110830322A
公开(公告)日:2020-02-21
申请号:CN201910869952.X
申请日:2019-09-16
Applicant: 北京大学
Abstract: 本发明涉及一种基于近似零误差的概率测量数据结构Sketch的网络流量测量方法和系统。该方法设立用于存储小流信息的CM-Sketch数据结构和用于存储标号的数据结构;在网络流量测量过程中更新表项时,首先更新CM-Sketch,然后基于对CM-Sketch的观察来对存储标号的数据结构进行更新。在插入一条新的流的信息时,同时在设计的用于存储标号的数据结构中保存其标号信息以及时间戳;而在需要复原流量信息时,可根据该数据结构中存储的标号,求解方程组,得到精确的流量信息。本发明在未使得算法时间复杂度有较明显提升的前提下,解决了Elastic Sketch针对小流信息查询准确性不足的缺陷,并且能够支持瞬时查询。
-
公开(公告)号:CN107798042A
公开(公告)日:2018-03-13
申请号:CN201710486563.X
申请日:2017-06-23
Applicant: 北京大学
IPC: G06F17/30
CPC classification number: G06F17/30312 , G06F17/30345 , G06F17/30424 , G06F17/30477
Abstract: 本发明涉及一种基于片内片外两级结构的数据处理方法和频度估计方法。该方法在支持删除操作以及与CM-Sketch具有相同或更快速度的基础上实现更高精确性和更小片上内存占用的Sketch,将其命名为Slim-Fat Sketch。本发明提出共计六个版本,除了第一代版本之外,每一代版本都是通过对上一个版本进行分析,然后在保证具有上一个版本优点的基础上针对上一个版本的局限性进行改进,最终得到符合预期效果的sketch设计。本发明的SF-sketch与已有的Sketch相比占用更小的内存空间,而且在与目前最好的Sketch具有相同速度的基础上提升了精确性,以更有效地实现数据频度估计。
-
公开(公告)号:CN119558398A
公开(公告)日:2025-03-04
申请号:CN202411401959.6
申请日:2024-10-09
Applicant: 北京大学
Abstract: 本发明公开了一种提升大语言模型批量推理效率的处理方法,其步骤包括:1)利用大语言模型对所有待处理的推理任务执行预填充处理,得到每一推理任务的序列中各词元的键向量和值向量以及一词元并缓存到任务池中;2)首轮迭代计算时,将从任务池所选n个推理任务对应的最新单个词元T组成张量TB、对应的键值向量组成张量KVB、各注意力掩码向量组成张量AB;将TB、KVB和AB输入大语言模型推理计算更新TB、AB和KVB用于下一轮迭代计算;3)当一推理任务迭代结束后,将该推理任务在各次迭代输出的词元进行拼接得到该推理任务的推理结果,并从任务池中选择待处理任务执行下一轮迭代。本发明提升了任务的处理效率和算力资源利用率。
-
公开(公告)号:CN114510474B
公开(公告)日:2024-06-18
申请号:CN202210153039.1
申请日:2022-02-18
Applicant: 中兴通讯股份有限公司 , 北京大学
IPC: G06F16/215 , G06F16/901
Abstract: 本发明公开了一种基于时间衰减的样本删除方法及其装置、存储介质,其中,基于时间衰减的样本删除方法包括:获取多个样本;将样本保存至存储空间,其中,存储空间对应有存储属性,存储属性随着存储空间保存样本的存储时间而改变,不同的存储属性对应有不同的预设删除容量,同一存储属性所对应的预设删除容量随着存储时间而衰减;计算归属于目标存储属性的存储空间中的各个样本的热度值;根据热度值和存储空间的当前预设删除容量,删除存储空间中的样本。根据样本的热度值以及存储空间的预设删除容量删除陈旧的样本,相较于现有技术仅根据样本存储时间的远近删除样本的方案,本发明能够保留陈旧样本中有价值的数据,从而有效提高样本的质量。
-
-
-
-
-
-
-
-
-