神经网络模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN117648950A

    公开(公告)日:2024-03-05

    申请号:CN202210970384.4

    申请日:2022-08-12

    Inventor: 庄毅萌

    Abstract: 本申请实施例提供一种神经网络模型的训练方法、装置、电子设备及存储介质,涉及人工智能技术领域。该方法包括:获取包括多个初始文本,对每个初始文本中的目标区段进行掩码处理,得到目标区段对应的掩码区段,将每个初始文本及其对应的掩码区段作为一个训练样本,对神经网络模型进行,其中,训练过程中样本的掩码区段的第一词元预测结果是根据样本的非掩码区段和掩码区段预测出的,样本的目标区段的第二词元预测结果是根据样本的非掩码区段和目标区段预测出的,模型的训练总损失是根据各样本对应的目标区段、第一文本预测结果和第二文本预测结果确定的。基于本申请实施例提供的训练方法,可以有效提高训练得到的模型的性能。

    文本处理方法、装置、电子设备及计算机可读存储介质

    公开(公告)号:CN113127615A

    公开(公告)日:2021-07-16

    申请号:CN202010049188.4

    申请日:2020-01-16

    Abstract: 本申请实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,涉及自然语言处理技术领域。该方法包括:获取与待处理的文本对应的多头注意力得分矩阵;对所述多头注意力得分矩阵进行校正得到多头协同注意力矩阵;基于所述多头协同注意力矩阵获取与所述文本对应的输出结果。本申请实施例提供的文本处理方法可以提高对文本处理的准确率,并使多头注意力机制有机会通过其他头修正多层的每一个头的得分并且获得更好的协同作用。

    训练词向量模型的方法及装置

    公开(公告)号:CN110555209A

    公开(公告)日:2019-12-10

    申请号:CN201810687680.7

    申请日:2018-06-28

    Abstract: 本申请涉及深度学习领域,公开了一种训练词向量模型的方法及装置,其中,训练词向量模型的方法包括:获取第一信息,所述第一信息用于反映目标文本与上下文文本之间的关联程度;获取第二信息,所述第二信息用于反映目标文本之间的关联程度;根据所述第一信息和所述第二信息,对词向量模型进行训练,得到目标文本的词向量。本申请实施例的方法,弥补了大量未观察到的文本信息对的缺失统计信息,缓解共现矩阵极其稀疏的问题,有效提高词向量模型确定的词向量的准确度。

    由电子设备执行的方法及相关设备

    公开(公告)号:CN117131165A

    公开(公告)日:2023-11-28

    申请号:CN202210575089.9

    申请日:2022-05-24

    Inventor: 庄毅萌 刘松 朱璇

    Abstract: 本申请实施例提供了一种由电子设备执行的方法及相关设备,涉及人工智能技术领域。其中,由电子设备执行的方法包括:获取目标问题中的第一实体;基于与第一实体的共现关系,在包括至少两种语言的预设的知识库中获取第二实体;基于第二实体确定目标问题的答案。本申请通过与第一实体的共现关系,在包括至少两种语言的预设的知识库中获取第二实体,继而采用第二实体确定目标问题的答案,也即可以采用资源充足的其他语言知识库回答本地语言知识库无法支持的问题,解决由于知识库资源不足所导致的应答准确率和召回率低的问题。同时,由电子设备执行的上述方法可以使用人工智能模型来执行。

    语言模型的训练方法及装置

    公开(公告)号:CN114330290A

    公开(公告)日:2022-04-12

    申请号:CN202011053142.6

    申请日:2020-09-29

    Inventor: 庄毅萌

    Abstract: 提供一种语言模型的训练方法及装置。该语言模型的训练方法包括:接收输入的训练数据,其中,训练数据包括给定词和所述给定词的上下文;基于所述给定词和所述给定词的上下文,生成训练数据在目标语言中的词的上下文相关向量的代理,并且基于所述给定词的上下文,生成训练数据在源语言中的上下文相关的词向量;基于词的上下文相关向量的代理和上下文相关的词向量确定源语言和目标语言的对齐概率作为损失函数;并且基于所述损失函数进行训练,从而实现跨语言对齐的目的,提高了语言模型的质量。

Patent Agency Ranking