一种基于Spark的大规模高维数据近似近邻查询系统和方法

    公开(公告)号:CN114329094B

    公开(公告)日:2024-09-10

    申请号:CN202111672312.3

    申请日:2021-12-31

    Abstract: 本发明提供的一种基于Spark的大规模高维数据近似近邻查询系统和方法,主要在内存中执行近似近邻查询。首先根据向量的相似性进行聚类分区,每一个聚类分区对应Spark弹性分布式数据集的一个分区。对每一个分区的数据进行比例采样,并且打上分区的标签。使用该采样数据在主节点建立全局索引,在相应的分区上建立分区索引。查询时,通过该全局索引找到相应的需要查询的若干个该分区,再对各个分区的结果汇总排序,得到最终结果。本发明的技术方案基于Spark系统提供了一种高度可扩展的分布式近似近邻查询方案,同时实现了低延迟和高吞吐量的特性。

    基于强化学习的轨迹划分与聚类模型训练

    公开(公告)号:CN118296416A

    公开(公告)日:2024-07-05

    申请号:CN202310001417.9

    申请日:2023-01-03

    Inventor: 姚斌 王波 郑文立

    Abstract: 本发明提出的基于强化学习的轨迹划分与聚类模型训练方法和平台,通过强化学习算法对给定的轨迹数据集进行划分,使得划分和聚类结果相关联,并能够得到聚类评价的指标较好的子轨迹聚类结果,以更好地揭示轨迹的局部特征的相似性。具体地,具有两个方面的优点:1)能更好地揭示轨迹的局部特征的相似性。本发明进行的是子轨迹聚类,因此具有不会忽略局部特征的特点。2)具有更好地普适性。不需要进行复杂的预处理和制定划分标准,对所采用距离和聚类方法也没有特别的要求,却能得到更好的聚类结果。

    知识图谱补全方法及系统
    4.
    发明公开

    公开(公告)号:CN114610900A

    公开(公告)日:2022-06-10

    申请号:CN202210249612.9

    申请日:2022-03-14

    Abstract: 本发明提供了一种知识图谱补全方法及系统,涉及数据处理技术领域,该方法包括:步骤S1:输入需要进行缺失三元组补全的知识图谱;步骤S2:训练基于空间投影和卷积神经网络的负采样评估模型;步骤S3:根据负采样评估模型生成高质量错误三元组来构建训练集;步骤S4:训练融合三元组上下文语义的知识图谱补全模型;步骤S5:根据知识图谱补全模型进行知识图谱补全。本发明能够获得优异的知识图谱补全评价指标的情况下,能够适用于大规模知识图谱补全任务。

    基于负载需求特征的数据中心负载分配方法及系统

    公开(公告)号:CN110995863B

    公开(公告)日:2021-07-30

    申请号:CN201911317923.9

    申请日:2019-12-19

    Abstract: 一种基于负载需求特征的数据中心负载分配方法,通过预先测量负载的时序资源需求特征对到来的负载进行干扰分类,根据不同计算节点的资源使用情况得到其对应的干扰程度指数,由调度节点将负载分配至使干扰程度指数之和最小的计算节点,从而实现最小化负载间干扰的调度。本发明通过最小化负载间干扰的方式,进行负载的调度。避免了因为单一资源的过载导致的服务器整体资源闲置,以及这种闲置带来的资源浪费和效率降低。同时减小了单一资源过载导致的服务质量下降。通过计算负载产生的干扰,并尽量避免干扰的调度方式,使得不同资源类型的利用率有均衡提升,从而提升数据中心的整体资源利用率。

    可逆自编码器、编解码方法以及图像压缩方法、装置

    公开(公告)号:CN111131834B

    公开(公告)日:2021-07-06

    申请号:CN201911391009.9

    申请日:2019-12-30

    Abstract: 本发明提供一种可逆自编码器、编解码方法以及图像压缩方法、装置,其中可逆自编码器包括:编码信号分离模块、级联可逆编码模块、编码信号合成模块、解码信号分离模块、级联可逆解码模块、解码信号合成模块,其中:信号分离模块对输入图像进行分离、并生成两路信号,级联可逆编码模块和级联可逆解码模块对两路信号进行处理,信号合成模块对处理后的两路信号进行合成。本发明涉及了可逆自编码器的同事,还提供了其应用于图像压缩的方法,该方法与基准神经网络相比,在达到相同压缩效果的前提下可以减少一半的参数量与计算量。

    基于业务类型的在线数据流QoS识别方法及系统

    公开(公告)号:CN111431820A

    公开(公告)日:2020-07-17

    申请号:CN202010157646.6

    申请日:2020-03-09

    Abstract: 本发明提供了一种基于业务类型的在线数据流QoS识别方法,包括:步骤S1:先用一部分有历史标签的历史流量进行分类,进行离线的模型训练,建立初始分类模型,然后将模型安装在SDN中的控制器中作为初始的分类器;步骤S2:当数据流量到达交换机时,将数据流的数据包和交换机中的转发流表进行匹配,如果匹配成功则按转发流表中设计的指令进行操作,否则将数据流的数据包封装后上传至控制器中。本发明的方法能够获得很高的准确率,且具有自适应调整能力,可用于不同时间不同地理位置的天地网络。

    基于弹性批处理的推理引擎系统、方法及电子设备

    公开(公告)号:CN110837419A

    公开(公告)日:2020-02-25

    申请号:CN201911088741.9

    申请日:2019-11-08

    Abstract: 本发明提供一种基于弹性批处理的推理引擎系统、方法及电子设备,所述基于弹性批处理的推理引擎方法包括:获取用户输入的待推理请求数据;获取最大并行批处理数量和待推理请求的数量;根据所述最大并行批处理数量和所述待推理请求的数量将所述待处理推理请求数据按需组织成为合适批处理大小的批处理数据,并唤醒深度神经网络推理引擎模块中与所述批处理数据的大小对应的子引擎,由所述子引擎处理所述待处理推理请求。本发明在无需增加硬件设备包括图形处理器等的前提下,极大化引擎系统的响应延迟速度和吞吐量。

    路网上的弹性聚合最近邻查询List-max方法

    公开(公告)号:CN108874860A

    公开(公告)日:2018-11-23

    申请号:CN201810342346.8

    申请日:2018-04-17

    Abstract: 本发明公开了一种路网上的弹性聚合最近邻查询List‑max方法,包括如下步骤:第一步,定义和初始化;第二步,从上述每个队列中取出第一个元素的距离,得到一个序列,计算其中前最小距离的最大值max,记为τ;如果τ大于或等于r*,则结束;否则,进入第三步;第三步,取得第二步序列中的最小元素对应的V中点的v,如果v从未被访问,计算的结果,并把v标记为访问过,如果结果小于r*,则更新r*,和p*;如果v被访问过,进入第四步;第四步,把v从其所在的队列L中出队;如果L为空,则结束;否则进入第二步。本发明可以有效减少弹性聚合函数的调用次数,提高的效率,从而提升查询速度,降低成本。

    路网上的弹性聚合最近邻查询List-sum方法

    公开(公告)号:CN108829700A

    公开(公告)日:2018-11-16

    申请号:CN201810365127.1

    申请日:2018-04-17

    Abstract: 本发明公开了一种路网上的弹性聚合最近邻查询List-sum方法,包括如下步骤:第一步,定义和初始化;第二步,从上述每个队列中取出第一个元素的距离,得到一个序列,计算其中前 最小距离的和sum,记为τ;如果τ大于或等于r*,则结束;否则,进入第三步;第三步,取得第二步序列中的最小元素对应的V中点的v,如果v从未被访问,计算的结果,并把v标记为访问过,如果结果小于r*,则更新r*,和p*;如果v被访问过,进入第四步;第四步,把v从其所在的队列L中出队;如果L为空,则结束;否则进入第二步。本发明可以有效减少弹性聚合函数 的调用次数,提高 的效率,从而提升查询速度,降低成本。

Patent Agency Ranking