一种异构多集群的数据处理方法、装置、介质及终端

    公开(公告)号:CN115391006A

    公开(公告)日:2022-11-25

    申请号:CN202210972749.7

    申请日:2022-08-15

    Abstract: 本发明公开了一种异构多集群的数据处理方法、装置、介质及终端,方法包括:在Kubernetes数据处理系统中增加新的Kubernetes虚拟节点,将每个所述Kubernetes虚拟节点与异构多集群中的每个异构集群相对应;基于所述Kubernetes虚拟节点为每个所述异构集群单独创建一个适配器;在Kubernetes数据处理系统中部署一个与所述适配器相对应的节点代理程序,其中,所述适配器通过所述节点代理程序可与Kubernetes的应用编程接口服务器通信;基于所述节点代理程序,将所述应用编程接口服务器对kubelet的操作转换为对异构集群的作业操作;本发明采用上述方法后解决了异构多集群调度较为困难的问题,实现了能够通过使用Kubernetes集群软件像数据处理普通的单集群一样去数据处理异构的多集群。

    基于Spark的大规模数据全局去重方法、电子设备及介质

    公开(公告)号:CN116561110A

    公开(公告)日:2023-08-08

    申请号:CN202310439940.X

    申请日:2023-04-18

    Abstract: 本申请提出一种基于Spark的大规模数据去重方法、电子设备和存储介质,通过将大规模语料数据进行预处理,将预处理后得到的第一处理文档存储至不同存储分区,再在各个存储分区内对第一处理文档进行分组,从而排除大量完全不相关的文档,再进行相似检测得到每个第一处理文档的相似对,并在文档分组、存储分区以及全局三种粒度上对相似对进行合并,在文档分组和存储分区的粒度上通过分布式并行运行的方法对相似对进行高效率合并,大大减少系统全局粒度上合并的计算量,从而实现对大规模数据的高效率模糊去重。

    一种数据集处理方法、系统、终端及计算机可读存储介质

    公开(公告)号:CN115407936A

    公开(公告)日:2022-11-29

    申请号:CN202210938171.3

    申请日:2022-08-05

    Abstract: 本发明公开了一种数据集处理方法、系统、终端及计算机可读存储介质,所述方法包括:根据指定的本地原始数据的路径和目标对象云的基本信息,调用框架层接口创建数据集,并对数据集进行压缩处理;当数据集压缩处理完成后得到多个不同的数据块,并将所有数据块异步上传到目标对象云进行存储;当进行机器学习时,加载目标对象云中的数据集到机器节点,完成模型训练。本发明基于数据集样本相似性特性对数据进行合理分块压缩存储,极大的增加传输效率同时也减少了存储介质,在数据落地存储前对块进行合理的打乱处理,在实际任务训练时时取得更好的训练效果,优化了数据集在统一对象存储的加载速度和训练效果。

Patent Agency Ranking