Patent search ap:("中国科学院自动化研究所") AND inv:"刘宇宸" Page 1

1.

发明授权
语音翻译模型训练方法、装置、电子设备及存储介质有权

公开(公告)号：CN117113091B

公开(公告)日：2024-02-13

申请号：CN202311380008.0

申请日：2023-10-24

Applicant: 中国科学院自动化研究所

Inventor： 刘宇宸 , 向露 , 张亚萍 , 周玉 , 宗成庆

IPC: G06F18/214 , G06F18/28 , G06N3/0455 , G06N3/08

Abstract: 本发明提供一种语音翻译模型训练方法、装置、电子设备及存储介质，应用于自然语言处理技术领域。该方法包括：获取第一语音数据、第一文本数据、第一语音识别数据、第一文本翻译数据以及第一语音翻译数据；分别对所述第一语音数据、所述第一文本数据以及所述第一语音识别数据进行掩码操作，生成多个掩码序列；基于所述多个掩码序列训练语音翻译模型的编码器；在所述编码器的第一损失函数处于收敛状态的情况下，冻结所述编码器的参数，并基于所述第一文本翻译数据训练所述语音翻译模型的解码器；基于所述第一语音翻译数据对所述语音翻译模型进行训练。

2.

发明公开
语音翻译模型训练方法、装置、电子设备及存储介质有权

公开(公告)号：CN117113091A

公开(公告)日：2023-11-24

申请号：CN202311380008.0

申请日：2023-10-24

Applicant: 中国科学院自动化研究所

Inventor： 刘宇宸 , 向露 , 张亚萍 , 周玉 , 宗成庆

IPC: G06F18/214 , G06F18/28 , G06N3/0455 , G06N3/08

Abstract: 本发明提供一种语音翻译模型训练方法、装置、电子设备及存储介质，应用于自然语言处理技术领域。该方法包括：获取第一语音数据、第一文本数据、第一语音识别数据、第一文本翻译数据以及第一语音翻译数据；分别对所述第一语音数据、所述第一文本数据以及所述第一语音识别数据进行掩码操作，生成多个掩码序列；基于所述多个掩码序列训练语音翻译模型的编码器；在所述编码器的第一损失函数处于收敛状态的情况下，冻结所述编码器的参数，并基于所述第一文本翻译数据训练所述语音翻译模型的解码器；基于所述第一语音翻译数据对所述语音翻译模型进行训练。

3.

发明公开
基于视觉语言预训练的图像文本翻译方法及装置有权

公开(公告)号：CN117034965A

公开(公告)日：2023-11-10

申请号：CN202310996132.3

申请日：2023-08-08

Applicant: 中国科学院自动化研究所

Inventor： 张亚萍 , 向露 , 刘宇宸 , 周玉 , 宗成庆

IPC: G06F40/58 , G06F40/289 , G06V30/41 , G06N3/045

Abstract: 本发明提供一种基于视觉语言预训练的图像文本翻译方法及装置，方法包括：确定源语言图像；将源语言图像输入至图像文本翻译模型，得到图像文本翻译模型输出的源语言图像对应的目标语言文本；其中，图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异，以及样本预测目标语言文本与样本目标语言标签之间的差异确定。本发明的图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时，样本图像特征向量能够补充提供相应的视觉信息，对文本识别错误进行校正，以增强图像文本翻译，准确得到样本预测目标语言文本，进而提高图像文本翻译模型的图像文本翻译精度。

4.

发明授权
零资源跨语言对话模型训练方法、装置、设备和介质有权

公开(公告)号：CN116805004B

公开(公告)日：2023-11-14

申请号：CN202311058414.5

申请日：2023-08-22

Applicant: 中国科学院自动化研究所

Inventor： 向露 , 刘宇宸 , 张亚萍 , 周玉 , 宗成庆

IPC: G06F16/332 , G06N3/042 , G06N3/045 , G06N3/096 , G06F40/40

Abstract: 本发明涉及自然语言处理技术领域，提供一种零资源跨语言对话模型训练方法、装置、设备和介质，所述方法包括：基于初始样本源语言对话数据，构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据；基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种，和双语平行数据，训练得到教师模型；将样本目标语言对话数据的对话输入数据输入至教师模型，得到蒸馏对话回复数据；基于样本目标语言对话数据的对话输入数据以及蒸馏对话回复数据进行蒸馏训练，得到零资源跨语言对话模型。本发明快速且低成本为零资源目标语言构建零资源跨语言对话模型。

5.

发明授权
基于视觉语言预训练的图像文本翻译方法及装置有权

公开(公告)号：CN117034965B

公开(公告)日：2024-03-22

申请号：CN202310996132.3

申请日：2023-08-08

Applicant: 中国科学院自动化研究所

Inventor： 张亚萍 , 向露 , 刘宇宸 , 周玉 , 宗成庆

IPC: G06F40/58 , G06F40/289 , G06V30/41 , G06N3/045

Abstract: 本发明提供一种基于视觉语言预训练的图像文本翻译方法及装置，方法包括：确定源语言图像；将源语言图像输入至图像文本翻译模型，得到图像文本翻译模型输出的源语言图像对应的目标语言文本；其中，图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异，以及样本预测目标语言文本与样本目标语言标签之间的差异确定。本发明的图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时，样本图像特征向量能够补充提供相应的视觉信息，对文本识别错误进行校正，以增强图像文本翻译，准确得到样本预测目标语言文本，进而提高图像文本翻译模型的图像文本翻译精度。

6.

发明公开
零资源跨语言对话模型训练方法、装置、设备和介质有权

公开(公告)号：CN116805004A

公开(公告)日：2023-09-26

申请号：CN202311058414.5

申请日：2023-08-22

Applicant: 中国科学院自动化研究所

Inventor： 向露 , 刘宇宸 , 张亚萍 , 周玉 , 宗成庆

IPC: G06F16/332 , G06N3/042 , G06N3/045 , G06N3/096 , G06F40/40

Abstract: 本发明涉及自然语言处理技术领域，提供一种零资源跨语言对话模型训练方法、装置、设备和介质，所述方法包括：基于初始样本源语言对话数据，构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据；基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种，和双语平行数据，训练得到教师模型；将样本目标语言对话数据的对话输入数据输入至教师模型，得到蒸馏对话回复数据；基于样本目标语言对话数据的对话输入数据以及蒸馏对话回复数据进行蒸馏训练，得到零资源跨语言对话模型。本发明快速且低成本为零资源目标语言构建零资源跨语言对话模型。

7.

发明公开
语音翻译模型训练方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN117332273A

公开(公告)日：2024-01-02

申请号：CN202311324549.1

申请日：2023-10-13

Applicant: 中国科学院自动化研究所

Inventor： 刘宇宸 , 张亚萍 , 向露 , 周玉 , 宗成庆

IPC: G06F18/214 , G06F18/23213 , G06F18/25 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/084 , G06F40/30 , G06F40/58 , G10L15/26 , G06N3/048

Abstract: 本发明提供一种语音翻译模型训练方法、装置、电子设备及存储介质，应用于自然语言处理技术领域。该方法包括：获取源语言语音数据；确定所述源语言语音数据的语义表征信息和声学表征信息，并将所述语义表征信息和所述声学表征信息进行融合处理，得到语音表征序列；基于所述语音表征序列对语音翻译模型进行训练；其中，所述语义表征信息用于指示所述源语言语音数据的语义特征，所述声学表征信息用于指示所述源语言语音数据的声学特征。

8.

发明授权
融合文本语义特征的语音翻译方法、系统、设备有权

公开(公告)号：CN112800782B

公开(公告)日：2023-10-03

申请号：CN202110127939.4

申请日：2021-01-29

Applicant: 中国科学院自动化研究所

Inventor： 周玉 , 刘宇宸 , 张家俊 , 宗成庆

IPC: G06F40/58 , G06F40/30 , G06F40/126 , G06N3/0499 , G06N3/084

Abstract: 本发明属于机器翻译领域，具体涉及一种融合文本语义特征的语音翻译方法、系统、设备，旨在解决现有语音翻译方法难以融合不同模态之间的信息，无法充分利用语音识别和机器翻译领域的数据，导致翻译性能较差的问题。本发明方法包括获取待翻译的源语言语音数据；提取源语言语音数据对应的语音特征序列；并获取各语音特征对应的声学表征；将声学表征的隐向量映射到源语言词表，并通过softmax函数得到语音特征序列每个时刻被识别为源语言词表中的词语的概率；对声学表征进行过滤处理，并通过第二编码器得到过滤后的声学特征对应的语义表征；基于语义表征，通过解码器得到源语言语音数据对应的目标语言翻译文本。本发明提高了语音翻译的性能。

9.

发明公开
融合文本语义特征的语音翻译方法、系统、设备有权

公开(公告)号：CN112800782A

公开(公告)日：2021-05-14

申请号：CN202110127939.4

申请日：2021-01-29

Applicant: 中国科学院自动化研究所

Inventor： 周玉 , 刘宇宸 , 张家俊 , 宗成庆

IPC: G06F40/58 , G06F40/30 , G06F40/126 , G06N3/08

Abstract: 本发明属于机器翻译领域，具体涉及一种融合文本语义特征的语音翻译方法、系统、设备，旨在解决现有语音翻译方法难以融合不同模态之间的信息，无法充分利用语音识别和机器翻译领域的数据，导致翻译性能较差的问题。本发明方法包括获取待翻译的源语言语音数据；提取源语言语音数据对应的语音特征序列；并获取各语音特征对应的声学表征；将声学表征的隐向量映射到源语言词表，并通过softmax函数得到语音特征序列每个时刻被识别为源语言词表中的词语的概率；对声学表征进行过滤处理，并通过第二编码器得到过滤后的声学特征对应的语义表征；基于语义表征，通过解码器得到源语言语音数据对应的目标语言翻译文本。本发明提高了语音翻译的性能。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification