-
公开(公告)号:CN113011202A
公开(公告)日:2021-06-22
申请号:CN202110306816.7
申请日:2021-03-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于多任务训练的端到端图像文本翻译方法,旨在解决现有的图像文本翻译模型因缺乏训练数据、模型结构设计,导致翻译性能较差的问题。本发明方法包括:获取待翻译的数据,作为输入数据;对输入数据进行预处理,预处理后,输入预构建的图像文本翻译模型,得到所述输入数据对应的翻译结果;图像文本翻译模型包括特征提取器、编码器‑解码器。本发明提高了图像文本翻译性能。
-
公开(公告)号:CN118552965A
公开(公告)日:2024-08-27
申请号:CN202410624083.5
申请日:2024-05-20
Applicant: 中国科学院自动化研究所
IPC: G06V30/19 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明提供一种文本图像翻译模型训练方法、装置、电子设备和存储介质,其中方法包括:获取预训练模型和训练数据,分别对训练数据中的文本图像和源端语言文本字符串进行特征编码,得到文本图像特征和文本特征;分别对文本图像特征和文本特征进行特征解码,得到文本图像翻译结果和文本翻译结果;基于文本图像翻译结果和训练数据中的目标端语言文本字符串,确定文本图像翻译损失;基于文本图像特征、文本特征、文本图像翻译结果和文本翻译结果,确定多层次知识迁移损失;将文本图像翻译损失和多层次知识迁移损失进行融合,得到训练损失,并基于训练损失对预训练模型进行参数更新,得到文本图像翻译模型。本发明能够提升文本图像翻译模型的性能。
-
公开(公告)号:CN117034965B
公开(公告)日:2024-03-22
申请号:CN202310996132.3
申请日:2023-08-08
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/289 , G06V30/41 , G06N3/045
Abstract: 本发明提供一种基于视觉语言预训练的图像文本翻译方法及装置,方法包括:确定源语言图像;将源语言图像输入至图像文本翻译模型,得到图像文本翻译模型输出的源语言图像对应的目标语言文本;其中,图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异,以及样本预测目标语言文本与样本目标语言标签之间的差异确定。本发明的图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时,样本图像特征向量能够补充提供相应的视觉信息,对文本识别错误进行校正,以增强图像文本翻译,准确得到样本预测目标语言文本,进而提高图像文本翻译模型的图像文本翻译精度。
-
公开(公告)号:CN116805004A
公开(公告)日:2023-09-26
申请号:CN202311058414.5
申请日:2023-08-22
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06N3/042 , G06N3/045 , G06N3/096 , G06F40/40
Abstract: 本发明涉及自然语言处理技术领域,提供一种零资源跨语言对话模型训练方法、装置、设备和介质,所述方法包括:基于初始样本源语言对话数据,构建扩充样本源语言对话数据、第一跨语言对话数据、第二跨语言对话数据、双语平行数据以及样本目标语言对话数据;基于扩充样本源语言对话数据、第一跨语言对话数据以及第二跨语言对话数据中的至少一种,和双语平行数据,训练得到教师模型;将样本目标语言对话数据的对话输入数据输入至教师模型,得到蒸馏对话回复数据;基于样本目标语言对话数据的对话输入数据以及蒸馏对话回复数据进行蒸馏训练,得到零资源跨语言对话模型。本发明快速且低成本为零资源目标语言构建零资源跨语言对话模型。
-
公开(公告)号:CN117149987B
公开(公告)日:2024-02-13
申请号:CN202311426764.2
申请日:2023-10-31
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F18/22 , G06F18/214 , G06F40/35 , G06F40/211 , G06F40/242
Abstract: 本发明属于自然语言处理技术领域,提供了一种多语言对话状态追踪模型的训练方法及装置,该多语言对话状态追踪模型的训练方法包括:获取源语言数据;基于多语词典对多个对话上下文信息进行语码转换,得到语码转换对话上下文信息;以语码转换对话上下文信息为训练样本,以第一函数为训练损失函数,对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型。本发明所述方法通过设计多种微调任务,能够构建有效的多语言生成式对话状态追踪模型,使得模型具备对不同语言对话上下文的理解能力,提高了多语言对话状态追踪性能。
-
公开(公告)号:CN117034965A
公开(公告)日:2023-11-10
申请号:CN202310996132.3
申请日:2023-08-08
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/289 , G06V30/41 , G06N3/045
Abstract: 本发明提供一种基于视觉语言预训练的图像文本翻译方法及装置,方法包括:确定源语言图像;将源语言图像输入至图像文本翻译模型,得到图像文本翻译模型输出的源语言图像对应的目标语言文本;其中,图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异,以及样本预测目标语言文本与样本目标语言标签之间的差异确定。本发明的图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时,样本图像特征向量能够补充提供相应的视觉信息,对文本识别错误进行校正,以增强图像文本翻译,准确得到样本预测目标语言文本,进而提高图像文本翻译模型的图像文本翻译精度。
-
公开(公告)号:CN117973337B
公开(公告)日:2024-10-11
申请号:CN202410102694.3
申请日:2024-01-24
Applicant: 中国科学院自动化研究所
IPC: G06F40/18 , G06V30/413 , G06V30/414
Abstract: 本发明提供一种表格重建方法、装置、电子设备及存储介质,应用于图像处理技术领域。该方法包括:获取表格图像;提取所述表格图像的图像特征,并根据所述图像特征确定所述表格图像的单元格类别、单元格坐标以及单元格像素掩码;根据所述单元格坐标和所述单元格像素掩码进行网格线重建得到第一表格,根据所述单元格类别对所述第一表格进行单元格合并得到第二表格;其中,所述单元格类别包括空白单元格、基础单元格以及合并单元格。
-
公开(公告)号:CN117332273A
公开(公告)日:2024-01-02
申请号:CN202311324549.1
申请日:2023-10-13
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06F18/23213 , G06F18/25 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/084 , G06F40/30 , G06F40/58 , G10L15/26 , G06N3/048
Abstract: 本发明提供一种语音翻译模型训练方法、装置、电子设备及存储介质,应用于自然语言处理技术领域。该方法包括:获取源语言语音数据;确定所述源语言语音数据的语义表征信息和声学表征信息,并将所述语义表征信息和所述声学表征信息进行融合处理,得到语音表征序列;基于所述语音表征序列对语音翻译模型进行训练;其中,所述语义表征信息用于指示所述源语言语音数据的语义特征,所述声学表征信息用于指示所述源语言语音数据的声学特征。
-
公开(公告)号:CN117149987A
公开(公告)日:2023-12-01
申请号:CN202311426764.2
申请日:2023-10-31
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F18/22 , G06F18/214 , G06F40/35 , G06F40/211 , G06F40/242
Abstract: 本发明属于自然语言处理技术领域,提供了一种多语言对话状态追踪模型的训练方法及装置,该多语言对话状态追踪模型的训练方法包括:获取源语言数据;基于多语词典对多个对话上下文信息进行语码转换,得到语码转换对话上下文信息;以语码转换对话上下文信息为训练样本,以第一函数为训练损失函数,对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型。本发明所述方法通过设计多种微调任务,能够构建有效的多语言生成式对话状态追踪模型,使得模型具备对不同语言对话上下文的理解能力,提高了多语言对话状态追踪性能。
-
公开(公告)号:CN113011202B
公开(公告)日:2023-07-25
申请号:CN202110306816.7
申请日:2021-03-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于多任务训练的端到端图像文本翻译方法,旨在解决现有的图像文本翻译模型因缺乏训练数据、模型结构设计,导致翻译性能较差的问题。本发明方法包括:获取待翻译的数据,作为输入数据;对输入数据进行预处理,预处理后,输入预构建的图像文本翻译模型,得到所述输入数据对应的翻译结果;图像文本翻译模型包括特征提取器、编码器‑解码器。本发明提高了图像文本翻译性能。
-
-
-
-
-
-
-
-
-