-
公开(公告)号:CN118535886A
公开(公告)日:2024-08-23
申请号:CN202410767299.7
申请日:2024-06-13
Applicant: 鹏城实验室
Abstract: 本申请实施例提供了一种文本数据质量评估方法及装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待评估的文本数据集,文本数据集包括多个数据样本;对文本数据集中的多个数据样本进行样本相似处理,得到若干个相似样本子集;对相似样本子集内的数据样本进行合并处理,得到目标数据样本;根据目标数据样本的数据重复率对进行去重处理;将更新后的目标数据样本输入至预训练的质量评估模型中,得到与每个目标数据样本一一对应的样本评估等级;根据样本评估等级,确定文本数据集的数据集评估等级。本申请实施例能够自动化对文本数据集进行评估,提高了数据评估效率,以及为后续的大模型训练提供了高质量的训练库。
-
公开(公告)号:CN114385785B
公开(公告)日:2024-12-17
申请号:CN202111594472.0
申请日:2021-12-23
Applicant: 鹏城实验室
Abstract: 本发明公开了一种支持高并发的大规模生成式语言模型快速推理方法及系统,方法包括:获取第i步的前序文本的注意力中间值和第i步的预测文本,并保存第i步的前序文本的注意力中间值;获取第i步的预测文本对应的注意力中间值,根据第i步的预测文本对应的注意力中间值与第i步的前序文本对应的注意力中间值获取第i+1步的前序文本对应的注意力输出结果;根据第i+1步的前序文本对应的注意力输出结果生成第i+1步的预测文本。本发明能够加速大规模生成式语言模型的推理速度,缩短用户等待模型输出的时间。
-
公开(公告)号:CN114386384B
公开(公告)日:2024-03-19
申请号:CN202111482009.7
申请日:2021-12-06
Applicant: 鹏城实验室
IPC: G06F40/194 , G06F16/2458
Abstract: 本发明公开了一种大规模长文本数据的近似重复检测方法、系统及终端,通过将传统数据库中的倒排索引结构引入到分布式计算框架中,实现了文档相似检测的分布式分区,并且通过倒排表分区方式实现Simhash技术的分布式计算,为其带来可扩展性,最后通过在计算过程中嵌入传统数据库领域的前缀剪枝技术,来进一步减少分布式重复检测过程中倒排分区的通讯读写代价和simhash计算的验证代价。
-
公开(公告)号:CN116070719B
公开(公告)日:2023-07-14
申请号:CN202310271228.3
申请日:2023-03-20
Applicant: 鹏城实验室
IPC: G06N20/00
Abstract: 本发明公开了一种跨计算节点分布式训练高效通信方法及系统,所述方法包括:在中心服务器上构建分布式训练机器学习模型;获取分布式训练机器学习模型中每个计算节点的本地更新量,并对本地更新量进行量化,得到量化后的本地更新量;根据量化后的本地更新量得到全局更新量,并对全局更新量进行量化,得到量化后的全局更新量;在各计算节点中,根据量化后的全局更新量更新分布式训练机器学习模型参数,得到更新后的分布式训练机器学习模型。本发明通过量化方法将计算节点间所需要通信的数据进行压缩以减少通讯数据量,不会影响最终收敛特性,从而减少通信时间,提高系统的整体训练效率。
-
公开(公告)号:CN114386384A
公开(公告)日:2022-04-22
申请号:CN202111482009.7
申请日:2021-12-06
Applicant: 鹏城实验室
IPC: G06F40/194 , G06F16/2458
Abstract: 本发明公开了一种大规模长文本数据的近似重复检测方法、系统及终端,通过将传统数据库中的倒排索引结构引入到分布式计算框架中,实现了文档相似检测的分布式分区,并且通过倒排表分区方式实现Simhash技术的分布式计算,为其带来可扩展性,最后通过在计算过程中嵌入传统数据库领域的前缀剪枝技术,来进一步减少分布式重复检测过程中倒排分区的通讯读写代价和simhash计算的验证代价。
-
公开(公告)号:CN117061509A
公开(公告)日:2023-11-14
申请号:CN202310813971.7
申请日:2023-07-04
Applicant: 鹏城实验室
IPC: H04L67/10 , H04L67/1008 , G06N3/098
Abstract: 本申请实施例公开了通信方法、装通信置、电子设备及存储介质,涉及通信技术领域。通过获取计算设备的第三数量个参数梯度并进行划分,得到第二数量个第一参数梯度,并将第一参数梯度发送至计算节点中预设的计算设备,对计算设备分组得到第二数量个计算设备集合,每个计算设备集合中是来自不同计算节点的第一数量个计算设备。在计算设备集合中,对计算设备的第一参数梯度进行划分得到第一数量个第二参数梯度,并将第二参数梯度发送至计算设备集合中预设的计算设备,从而根据计算设备接收到的第二参数梯度得到计算节点的通信量。由此对不同的计算节点的计算设备及其参数梯度进行分组,有效减少计算节点间的通信量,从而减少通信时间提高训练效率。
-
公开(公告)号:CN116070719A
公开(公告)日:2023-05-05
申请号:CN202310271228.3
申请日:2023-03-20
Applicant: 鹏城实验室
IPC: G06N20/00
Abstract: 本发明公开了一种跨计算节点分布式训练高效通信方法及系统,所述方法包括:在中心服务器上构建分布式训练机器学习模型;获取分布式训练机器学习模型中每个计算节点的本地更新量,并对本地更新量进行量化,得到量化后的本地更新量;根据量化后的本地更新量得到全局更新量,并对全局更新量进行量化,得到量化后的全局更新量;在各计算节点中,根据量化后的全局更新量更新分布式训练机器学习模型参数,得到更新后的分布式训练机器学习模型。本发明通过量化方法将计算节点间所需要通信的数据进行压缩以减少通讯数据量,不会影响最终收敛特性,从而减少通信时间,提高系统的整体训练效率。
-
公开(公告)号:CN115964947A
公开(公告)日:2023-04-14
申请号:CN202211704600.7
申请日:2022-12-29
Applicant: 鹏城实验室
IPC: G06F30/27 , G06F9/50 , G06F111/04
Abstract: 本发明公开了基于多面体模型建模的自动并行策略搜索方法及相关设备,所述方法包括:根据每两个客户端的智算网络的智算中心资源,以最优的并行策略作为约束条件,分别对该两个客户端上的编解码架构模型进行分配;控制该两个客户端利用所有经过分配后的编解码架构模型,对所述智算中心资源进行协同训练和聚合操作,计算得到多面体模型的梯度值。通过先根据每两个客户端的智算网络的智算中心资源,对各自的编解码架构模型进行不同的分配,再利用经过分配后的编解码架构模型对所述智算中心资源进行协同训练和聚合操作,以便计算得到梯度值,从而实现根据不同算力分布、数据分布、以及不同业务场景进行分配,使得满足多种业务场景,实现大模型训练在智算网络中的规模化扩展。
-
公开(公告)号:CN115796192A
公开(公告)日:2023-03-14
申请号:CN202211011066.1
申请日:2022-08-23
Applicant: 鹏城实验室
IPC: G06F40/58 , G06F18/214
Abstract: 本发明实施例提供了一种多语言翻译模型的生成方法、翻译方法、终端及存储介质,通过获取多个第一单语语句,对预设自回归语言模型进行训练,生成预训练语言模型;所述预设自回归语言模型由解码器组成;获取多个双语语句对,并将所述双语语句对中互译的两个语句拼接,生成双语训练样本;基于所述双语训练样本对所述预训练语言模型进行训练,生成多语言翻译模型;所述多语言翻译模型用于将给定的源语言翻译出目标语句。通过上述方案,利用稀缺语言资源生成高翻译质量的多语言翻译模型,实现高质量的多语言翻译。
-
公开(公告)号:CN114385785A
公开(公告)日:2022-04-22
申请号:CN202111594472.0
申请日:2021-12-23
Applicant: 鹏城实验室
Abstract: 本发明公开了一种支持高并发的大规模生成式语言模型快速推理方法及系统,方法包括:获取第i步的前序文本的注意力中间值和第i步的预测文本,并保存第i步的前序文本的注意力中间值;获取第i步的预测文本对应的注意力中间值,根据第i步的预测文本对应的注意力中间值与第i步的前序文本对应的注意力中间值获取第i+1步的前序文本对应的注意力输出结果;根据第i+1步的前序文本对应的注意力输出结果生成第i+1步的预测文本。本发明能够加速大规模生成式语言模型的推理速度,缩短用户等待模型输出的时间。
-
-
-
-
-
-
-
-
-