模型推理方法、云平台、设备和存储介质

    公开(公告)号:CN116010067A

    公开(公告)日:2023-04-25

    申请号:CN202111223481.9

    申请日:2021-10-20

    Inventor: 练韵文 李亿 刘畅

    Abstract: 本申请提供了一种模型推理的方法、云平台、设备和存储介质,属于人工智能技术领域。该方法包括:获取模型切分得到的第一子模型和第二子模型,设置第一实例集,第一实例集包括分别加载第一子模型的多个第一实例,设置第二实例集,第二实例集包括分别加载第二子模型的多个第二实例,为第一实例集设置第一负载均衡器,第一负载均衡器用于将多个推理样本分发至第一实例集中的多个第一实例进行模型推理,以产生多个第一推理结果,为第二实例集设置第二负载均衡器,第二负载均衡器用于将该多个第一推理结果分发至第二实例集中的多个第二实例进行模型推理。采用本申请,每个子模型由多个实例加载,使得模型推理的可靠性较高。

    一种分布式训练方法、系统及装置

    公开(公告)号:CN117395186A

    公开(公告)日:2024-01-12

    申请号:CN202210756779.4

    申请日:2022-06-29

    Abstract: 一种分布式训练方法、系统及装置,用于解决现有技术中交换机传输链路拥塞,导致传输数据较慢的问题。方法包括:管理节点获取网络拓扑,其中,网络拓扑包括核心交换机和计算集群中的计算节点的连通关系,随后,管理节点根据网络拓扑,确定N个计算节点之间的通信规划;其中,N个计算节点是计算集群中用于分布式训练目标模型的计算节点;通信规划包括多条组间路径,对于多条组间路径中的每条组间路径:组间路径包括N个计算节点中、属于不同分组的两个计算节点,以及用于连通两个计算节点的核心交换机,组间路径用于传输组间路径中两个计算节点之间的数据;多条组间路径分别传输的数据量符合预设条件;M和N均为大于2的整数。

    一种深度学习模型检测方法、装置、设备及存储介质

    公开(公告)号:CN115248816A

    公开(公告)日:2022-10-28

    申请号:CN202110466770.5

    申请日:2021-04-28

    Abstract: 本申请提供了一种深度学习模型检测方法。深度学习模型检测装置根据待检测深度学习模型的目标网络结构,从一个或者多个候选深度学习模型中查找目标深度学习模型,其中,该目标深度学习模型的网络结构与待检测深度学习模型的目标网络结构相匹配;深度学习模型检测装置输出查找结果。由于获取待检测深度学习模型的目标网络结构的难度通常较低,因此,相对于根据深度学习模型的实现算法确定深度学习模型之间是否相同或相似的实现方式而言,根据深度学习模型的网络结构查找目标深度学习模型的方式,可以有效降低检测难度,根据网络结构进行模型检测的准确率也可以达到较高水平。

    数据处理的系统及数据处理的方法

    公开(公告)号:CN117951216A

    公开(公告)日:2024-04-30

    申请号:CN202211280467.7

    申请日:2022-10-19

    Abstract: 本申请实施例提供了一种数据处理的系统及数据处理的方法,该数据处理的系统应用于分布式数据处理场景,该系统包括n个计算节点和m组交换机,该n个计算节点中的每个计算节点包括m组网口,每个计算节点的第i组网口与m组交换机中的第i组交换机相连,m组交换机中的每组交换机构成一个通信网络,m组交换机相互独立。本申请实施例的方案可以通过引入多组交换机实现集群规模的横向扩展,从而提高集群规模的上限。

    AI模型的分布式训练方法和相关设备

    公开(公告)号:CN115712830A

    公开(公告)日:2023-02-24

    申请号:CN202110963715.7

    申请日:2021-08-20

    Abstract: 本申请涉及人工智能技术领域,提供了一种AI模型的分布式训练方法和相关设备,其中方法应用于AI平台,所述AI平台与计算资源池相关联,所述计算资源池包括用于所述AI模型分布式训练的多个计算节点,所述多个计算节点中的每个计算节点执行所述AI模型分布式训练的一个训练任务;所述方法包括:对第一计算节点进行故障隔离,所述第一计算节点为所述多个计算节点中发生故障的计算节点;确定第二计算节点,所述第二计算节点为所述计算资源池中除所述多个计算节点之外的计算节点;配置所述第二计算节点,以使所述第二计算节点替代所述第一计算节点执行训练任务。本申请实施例能够降低故障恢复的时长。

    一种多集群参数同步方法及装置
    6.
    发明公开

    公开(公告)号:CN114765615A

    公开(公告)日:2022-07-19

    申请号:CN202011601441.9

    申请日:2020-12-30

    Abstract: 一种多集群参数同步方法及装置,用于解决现有技术中单一集群无法满足当前较大规模训练作业的需求的问题。在本申请中包括N轮集群间同步;其中,N轮集群间同步中的第I轮集群间同步,包括:第一同步节点获取m个集群分别对应的待同步参数,任一集群对应的待同步参数是该集群根据第I‑1轮集群间同步后的参数确定的,m个集群包括第一集群和m‑1个第二集群,第一集群是m个集群中的任一个,第一同步节点是第一集群中n个计算节点的任一个;第一同步节点根据m个集群分别对应的待同步参数,确定第I轮集群间同步后的参数,m、n均为大于1的正整数,N、I均为大于0的正整数。

    模型训练方法、装置、存储介质及设备

    公开(公告)号:CN114757244A

    公开(公告)日:2022-07-15

    申请号:CN202011566357.8

    申请日:2020-12-25

    Inventor: 李亿 练韵文

    Abstract: 本申请公开了一种模型训练方法、装置、存储介质及设备,属于AI领域。在本申请实施例中,可以获得神经网络模型对应的梯度信息,然后根据梯度信息对第一训练数据子集中的训练数据进行评估,获得评估结果,最后根据评估结果调整索引表。这样,调整后的索引表用于在下一个回合获取第二训练数据子集。也即,本申请实施例可以实现在训练的过程中根据梯度信息动态调整索引表,进而可以在下一回合中根据索引表读取相应的第二训练数据子集。通过在每个回合对训练数据进评估,动态调整训练过程中的训练数据集,使得在模型的训练过程中能更快地达到训练目标,节约训练时长和训练消耗的算力。

Patent Agency Ranking