生成对抗样本的方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN116681091A

    公开(公告)日:2023-09-01

    申请号:CN202210161770.9

    申请日:2022-02-22

    Abstract: 本申请实施例提供了一种生成对抗样本的方法、装置、设备、存储介质及程序产品,涉及人工智能领域,应用场景包括但不限于机器翻译等场景。该方法包括:获取待翻译的源文本和源文本对应的目标文本;确定源文本对应的待识别对抗样本,以及目标文本对应的待识别对抗样本;基于源文本和源文本对应的待识别对抗样本,确定第一相似度下降率;并基于源文本、目标文本和目标文本对应的待识别对抗样本,确定第二相似度下降率;若第一相似度下降率大于预设第一相似度下降率阈值,且第二相似度下降率小于预设第二相似度下降率阈值,则确定源文本对应的待识别对抗样本为源文本的对抗样本,以及目标文本对应的待识别对抗样本为目标文本的对抗样本。

    数据处理方法、装置、计算机设备及计算机可读存储介质

    公开(公告)号:CN116663572A

    公开(公告)日:2023-08-29

    申请号:CN202210143195.X

    申请日:2022-02-16

    Abstract: 本申请公开了数据处理方法、装置、计算机设备及计算机可读存储介质,应用于计算机技术领域。该方法包括:获取待处理数据序列;调用数据转换模型对待处理数据序列进行处理,得到待处理数据序列中各个待处理数据对应的目标数据,该数据转换模型对应的训练样本包括源词序列以及对应的目标词序列,该数据转换模型是基于训练样本以及目标词序列中的每个目标词的对齐偏置进行训练得到的,该对齐偏置为每个目标词相对于源词序列中对应源词的偏移数据;输出各个待处理数据对应的目标数据。本申请可以应用于同步机器翻译等各种数据转换场景,能够提高数据转换的准确性。

    翻译模型训练方法、装置、计算机设备及存储介质

    公开(公告)号:CN116644762A

    公开(公告)日:2023-08-25

    申请号:CN202210138704.X

    申请日:2022-02-15

    Abstract: 本申请实施例公开了一种翻译模型训练方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取样本数据集合;调用待训练的翻译模型,基于第一历史语句,对第一样本语句进行翻译,得到第一样本语句对应的第一翻译语句,基于翻译模型的第一损失函数和第一翻译语句,确定第一梯度参数;调用辅助模型,基于样本数据集合中的辅助历史语句进行处理,得到辅助模型的输出结果,基于辅助模型的第二损失函数和辅助模型的输出结果,确定第二梯度参数;基于第一梯度参数和第二梯度参数,更新翻译模型对应的模型参数。该方法能够增强翻译模型所翻译出的翻译语句与位于该翻译语句之前的语句之间的连贯性,从而提高了翻译模型的准确性。

    机器翻译模型的训练方法、机器翻译方法、装置及设备

    公开(公告)号:CN114154520A

    公开(公告)日:2022-03-08

    申请号:CN202111389048.2

    申请日:2021-11-22

    Abstract: 本申请公开了一种机器翻译模型的训练方法、机器翻译方法、装置及设备,属于计算机技术领域,该方法包括:获取训练样本集,训练样本集包括训练样本及该训练样本对应的标准翻译文本;将训练样本及训练样本对应的标准翻译文本输入机器翻译模型中,获取机器翻译模型在反向传播过程中产生的梯度向量;基于梯度向量和多个噪音词为训练样本生成对抗样本;基于训练样本和对抗样本对机器翻译模型进行对抗训练,得到目标机器翻译模型。该训练方法生成的对抗样本对机器翻译模型攻击性较大,并且增加了训练数据的多样性,由此提高了机器翻译模型的鲁棒性,进而提高了机器翻译模型的翻译性能,使得通过机器翻译模型得到的翻译结果更加准确。

    一种文本翻译方法和相关装置
    45.
    发明公开

    公开(公告)号:CN113761952A

    公开(公告)日:2021-12-07

    申请号:CN202110558951.0

    申请日:2021-05-21

    Abstract: 本申请实施例公开了一种文本翻译方法和相关装置,为了提高翻译质量,处理设备可以结合源语种和目标语种所对应词语片段之间的翻译映射关系,调节用于训练初始翻译模型的相关参数,并基于调节后的相关参数,通过AI技术训练初始翻译模型,从而使训练得到翻译模型能够基于该翻译映射关系对源语种文本进行翻译,使翻译得到的目标语种下的翻译文本更加贴合源语种文本的文本含义,提高翻译效果。同时,训练得到的翻译模型以及过程中所确定出的关联参数可以通过区块链技术进行上链存储,以便于后续过程中对其它模型进行训练以及翻译应用。

    一种模型训练的方法、文本分类的方法、装置及存储介质

    公开(公告)号:CN111368078A

    公开(公告)日:2020-07-03

    申请号:CN202010129552.8

    申请日:2020-02-28

    Abstract: 本申请公开了一种模型训练的方法,包括:获取待训练文本;获取待训练文本中每个词语所对应的第一深度标签;基于每个词语的词嵌入,通过文本分类模型中的深度值分类器获取每个词语所对应的深度概率分布向量;基于每个词语所对应的第二深度标签以及每个词语所对应的词嵌入,通过文本分类模型获取类别概率分布向量;根据待训练文本所对应的真实分类标签、类别概率分布向量、第一深度标签以及深度概率分布向量,采用目标损失函数对文本分类模型的模型参数进行更新。本申请还公开了一种基于人工智能的文本分类方法。本申请可以独立预测每个词语对应的深度值,而不会受到下游任务类型和数据集的干扰,从而提升模型的鲁棒性。

    机器翻译方法及系统

    公开(公告)号:CN104268133B

    公开(公告)日:2018-02-13

    申请号:CN201410461334.9

    申请日:2014-09-11

    Inventor: 徐金安 吴培昊

    Abstract: 本发明公开了一种机器翻译方法及系统,属于自然语言处理研究领域。所述方法包括:训练过程和翻译过程,通过抽取源语言句子的谓词论元结构,结合目标语言的词法分析结果的词串,形成树到串双语对齐语料,再利用谓词论元结构信息指导树到串机器翻译规则的抽取和解码过程,从而直接将谓词论元结构建模到树到串机器翻译中。本发明通过将谓词论元结构建模到树到串机器翻译中,解决了现有技术中被抽取的统计翻译规则的冗余规则数量非常大的问题,达到了降低冗余规则数量,改善语义结构和语义相关性,提高长距离调序性能,提高翻译质量的效果。

    机器翻译测评装置及方法
    48.
    发明授权

    公开(公告)号:CN103119584B

    公开(公告)日:2016-03-16

    申请号:CN201080069241.1

    申请日:2010-12-17

    Inventor: 徐金安 蒋俊杰

    CPC classification number: G06F17/2854

    Abstract: 本发明提供了一种机器翻译测评装臵及方法,其中,该装臵包括:源语言评分单元,用于接收源语言输入语句,并根据预设的源语言模型对该源语言输入语句进行评分计算,得到第一评分值;目标语言评分单元,用于接收目标语言输出语句,并根据预设的与该源语言模型相对应的目标语言模型对该目标语言输出语句进行评分计算,得到第二评分值,其中,该目标语言输出语句为该源语言输入语句对应的翻译结果;评价单元,用于根据该第一评分值与该第二评分值,计算得到该目标语言输出语句的评价值。本发明实现了在不存在参考译文或标准翻译结果的情况下,对目标语言输出语句的翻译质量进行合理评价,提高了机器翻译测评的可操作性。

    翻译信息的方法和装置
    49.
    发明公开

    公开(公告)号:CN104699675A

    公开(公告)日:2015-06-10

    申请号:CN201510119654.0

    申请日:2015-03-18

    Abstract: 本发明公开了一种翻译信息的方法和装置,属于自然语言处理研究领域。方法包括:获取源语言格式的第一信息中包含的表情符号;在第一信息中将该表情符号置换为用于标识该表情符号的第一标识得到第二信息;将第二信息翻译为目标语言格式的第三信息;从第三信息中提取与第一标识相对应的第二标识;在第三信息中将第二标识置换为第二标识对应的表情符号得到第四信息。装置包括:第一获取模块,第一置换模块,翻译模块,第一提取模块和第二置换模块。实现了不受表情符号库及翻译词典的限制,对表情符号的高精度翻译,降低构筑包含表情符号的翻译词典、翻译规则、翻译模型和语言模型等成本,解决表情符号词典内未登录的表情符号的识别、翻译和生成问题。

    机器翻译装置和方法
    50.
    发明公开

    公开(公告)号:CN103314369A

    公开(公告)日:2013-09-18

    申请号:CN201080070253.6

    申请日:2010-12-17

    CPC classification number: G06F17/2872

    Abstract: 本发明公开了一种机器翻译装置和方法,涉及自然语言处理领域。装置包括:源语言输入单元,输入源语言语句;源语言分析单元,进行词法分析和句法分析得到句法结构,并为句法结构中的节点赋予属性特征;任意格判定模型存储单元,存储任意格判定模型;任意格判定单元,判断是否含有任意格;任意格短语提取单元,获取任意格短语;任意格短语翻译单元,翻译任意格短语;第一提取单元,获取源语言剩余语句;机器翻译单元,翻译源语言剩余语句;翻译结果整合单元,整合得到目标语言;目标语言输出单元,输出目标语言。本发明可以降低源语言的句法结构的复杂程度,提高目标语言生成效率,达到提高翻译精度,使机器翻译解码的运算量得到适当降低。

Patent Agency Ranking