-
公开(公告)号:CN115345181A
公开(公告)日:2022-11-15
申请号:CN202210786892.7
申请日:2022-07-04
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/58 , G06F16/36 , G06F40/211 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种神经机器翻译模型的训练方法、翻译方法及装置,所述训练方法包括:构建神经机器翻译模型;将双语平行句对中的源语言句子和目标语言句子,以及知识图谱中每个三元组中的头实体和尾实体进行细粒度切分,得到标准源语言句子序列、标准目标语言句子序列以及知识图谱中每个三元组中的标准头实体‑关系序列和标准尾实体序列;将其输入编解码模块中预测得到目标语言句子序列以及尾实体序列;基于标准目标语言句子序列和预测的目标语言句子序列之间的交叉熵,以及知识图谱中每个三元组中的标准尾实体序列与预测的尾实体序列之间的交叉熵,共同训练该模型。本发明能够有效融合细粒度知识推断,提升神经机器翻译对于实体的翻译质量。
-
公开(公告)号:CN115186204A
公开(公告)日:2022-10-14
申请号:CN202210639735.3
申请日:2022-06-08
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/955 , G06F16/906
Abstract: 本发明属于通讯领域,公开了一种链接去重方法、装置、设备及存储介质。该方法包括:获取待下载链接,对所述待下载链接进行格式化,获得格式化链接;将所述格式化链接与预设链接模式库中存放的链接模板进行匹配,获得匹配结果;根据匹配结果判断是否对所述格式化链接进行去重操作。由于本发明是将格式化链接与预设链接模式库中存放的链接模板进行匹配,获得匹配结果;根据匹配结果判断是否对格式化链接进行去重操作。相对于现有的接收到下载链接直接进行资源下载的方式,本发明上述方式能够对下载链接进行去重操作,减少资源的重复下载,保证下载资源的质量。
-
公开(公告)号:CN119443120A
公开(公告)日:2025-02-14
申请号:CN202411499066.X
申请日:2024-10-25
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06N3/0499 , G06N5/04
Abstract: 公开了一种翻译方法及装置、计算机可读存储介质及计算机程序产品,所述方法包括:将源文档图像输入图像编码器,得到图像编码特征,其中,源文档图像包括源语言文本部分和插图部分;将源文档图像输入语义对齐编码器,得到单模态语义编码特征;将图像编码特征和单模态语义编码特征输入解码器,得到源文档图像的翻译结果,其中,翻译结果包括目标语言文本部分和插图部分;其中,翻译模型利用多模态大模型的输出进行训练。
-
公开(公告)号:CN115081430B
公开(公告)日:2024-12-06
申请号:CN202210576165.8
申请日:2022-05-24
Applicant: 中国科学院自动化研究所
IPC: G06F40/232 , G06N20/00
Abstract: 本发明提供一种中文拼写检错纠错方法、装置、电子设备及存储介质,属于自然语言处理技术领域,该方法包括:将汉字输入序列输入至对比学习模型,得到对比学习模型输出的汉字输入序列中各个汉字对应的相似字向量;基于相似字向量,检测汉字输入序列中的错误汉字,获得错误汉字的位置和类型;对汉字输入序列进行编码,得到汉字输入序列对应的编码向量;基于相似字向量、错误汉字的位置和类型,以及编码向量,纠正汉字输入序列中的错误汉字,获得最优纠正文本。通过各个汉字的字音相似关系和字形相似关系,实现了汉字输入序列中错误汉字的检错和纠错,提升了复杂汉字相似错误的检测与纠正的准确率,提升了中文拼写纠错的纠正质量。
-
公开(公告)号:CN118447523A
公开(公告)日:2024-08-06
申请号:CN202410446560.3
申请日:2024-04-15
Applicant: 中国科学院自动化研究所
IPC: G06V30/414 , G06V30/416 , G06V30/18 , G06V30/19 , G06F40/58
Abstract: 本发明提供一种基于特征传导的端到端文档图像翻译方法及装置,该方法包括:获取待翻译文档图像;提取待翻译文档图像的字符识别结果的几何联合特征,几何联合特征包括几何版面特征、文本特征;基于几何联合特征,得到待翻译文档图像的逻辑版面特征;将逻辑版面特征,和几何联合特征中的文本特征进行特征融合,得到待翻译文档图像的翻译导向特征;基于翻译导向特征,得到文档图像翻译结果。本发明提供的方法,将几何版面以及逻辑版面信息显式地进行建模,并将它们与文本特征进行融合,提升了对复杂版面的文档图像的翻译能力。同时,提供了基于特征传导的统一联合框架,增强了版面模块与翻译模块的协同优化。
-
公开(公告)号:CN118397641A
公开(公告)日:2024-07-26
申请号:CN202410416736.0
申请日:2024-04-08
Applicant: 中国科学院自动化研究所
IPC: G06V30/28 , G06V30/19 , G06N3/0455 , G06N3/08 , G06F40/40
Abstract: 本发明提供一种端到端文档图像翻译方法及装置,该方法包括:对文档图像进行光学字符识别编码,得到图像编码特征,对文档图像进行版面感知编码,得到版面编码特征;根据门控机制对图像编码特征和版面编码特征进行特征加权融合,得到融合特征表示;对融合特征表示进行解码,得到翻译文本。本发明所述方法通过图像编码特征和版面编码特征的融合特征实现文档图像的翻译,提高了文档图片的翻译准确率。
-
公开(公告)号:CN117973337A
公开(公告)日:2024-05-03
申请号:CN202410102694.3
申请日:2024-01-24
Applicant: 中国科学院自动化研究所
IPC: G06F40/18 , G06V30/413 , G06V30/414
Abstract: 本发明提供一种表格重建方法、装置、电子设备及存储介质,应用于图像处理技术领域。该方法包括:获取表格图像;提取所述表格图像的图像特征,并根据所述图像特征确定所述表格图像的单元格类别、单元格坐标以及单元格像素掩码;根据所述单元格坐标和所述单元格像素掩码进行网格线重建得到第一表格,根据所述单元格类别对所述第一表格进行单元格合并得到第二表格;其中,所述单元格类别包括空白单元格、基础单元格以及合并单元格。
-
公开(公告)号:CN115062787A
公开(公告)日:2022-09-16
申请号:CN202210581040.4
申请日:2022-05-25
Applicant: 中国科学院自动化研究所
IPC: G06N20/00 , G06F40/232 , G06F40/279
Abstract: 本发明提供一种对比学习模型的训练方法及装置、汉字表示方法及装置,其中对比学习模型的训练方法包括:基于相似汉字混淆集中的各混淆汉字构建相似汉字簇集合,所述相似汉字簇集合包括字音相似汉字簇集合和字形相似汉字簇集合;根据所述字音相似汉字簇集合、所述字形相似汉字簇集合构建样本汉字三元组集合;将所述样本汉字三元组集合输入对比学习模型进行训练,直至达到训练停止条件。利用包含有字音相似汉字簇集合和字形相似汉字簇集合的样本汉字三元组集合对对比学习模型进行训练,可以得到汉字之间字音字形的相似关系,丰富了汉字之间字音字形相似关系的表达。
-
公开(公告)号:CN107943795B
公开(公告)日:2020-05-19
申请号:CN201711123864.2
申请日:2017-11-14
Applicant: 中国科学院自动化研究所 , 波音(中国)投资有限公司
Abstract: 本发明涉及机器翻译领域,具体涉及一种提高神经机器翻译准确度的方法、翻译方法及系统和设备,目的在于减少神经机器翻译系统的漏翻和重翻问题。本发明提出的提高神经机器翻译准确度的方法,通过将统计机器翻译中常用的预处理方法即预调序,引入到神经机器翻译中,实现了意想不到的技术效果——大大缓解了漏翻和重翻问题。另外,在神经机器翻译的注意力层加入位置向量以增强单调翻译,加入覆盖度向量,进一步缓解漏翻和重翻问题。相对于现有的神经机器翻译方法,本发明在提高翻译质量以及减少漏翻重翻方面均有显著改进。
-
公开(公告)号:CN113011202A
公开(公告)日:2021-06-22
申请号:CN202110306816.7
申请日:2021-03-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于多任务训练的端到端图像文本翻译方法,旨在解决现有的图像文本翻译模型因缺乏训练数据、模型结构设计,导致翻译性能较差的问题。本发明方法包括:获取待翻译的数据,作为输入数据;对输入数据进行预处理,预处理后,输入预构建的图像文本翻译模型,得到所述输入数据对应的翻译结果;图像文本翻译模型包括特征提取器、编码器‑解码器。本发明提高了图像文本翻译性能。
-
-
-
-
-
-
-
-
-