-
公开(公告)号:CN116502654B
公开(公告)日:2024-11-01
申请号:CN202310321437.4
申请日:2023-03-29
Applicant: 苏州大学
IPC: G06F40/58 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及一种非自回归机器翻译系统、方法和电子设备,系统包括:对源序列X依次进行序列化和编码,得到编码序列;以序列化后的源序列X为基准,对所述编码序列进行解码,得到带有噪声的序列Ypot;对所述带有噪声的序列Ypot中的错误信息进行掩码,得到掩码序列;将所述编码序列作为注意力机制,对所述掩码序列中被掩码的错误信息进行预测,得到预测结果;将所述预测结果与所述带有噪声的序列Ypot中未被掩码的信息进行组合,得到翻译结果。本发明能够对待翻译的文本进行有效翻译,且翻译效率较高。
-
公开(公告)号:CN111178098B
公开(公告)日:2023-09-12
申请号:CN201911411188.8
申请日:2019-12-31
Applicant: 苏州大学
Abstract: 本发明公开了一种文本翻译方法,包括:对接收到的文本翻译请求进行解析,得到待翻译文本、待翻译文本对应的第一语种类别、以及需翻译为的第二语种类别;利用文本翻译模型中第一语种类别对应的目标情感分类器对待翻译文本进行情感分类,得到目标情感类别;利用文本翻译模型根据目标情感类别对待翻译文本进行情感标注,得到情感标注后待翻译文本;将情感标注后待翻译文本输入至文本翻译模型中的目标翻译系统,得到目标文本。本发明保证了文本翻译得到的目标文本与待翻译文本的情感一致性,较大地提高了文本翻译的准确率。本发明还公开了一种文本翻译装置、设备及存储介质,具有相应技术效果。
-
公开(公告)号:CN109635269B
公开(公告)日:2023-06-16
申请号:CN201910079518.1
申请日:2019-01-31
Applicant: 苏州大学
IPC: G06F40/166 , G06F40/58
Abstract: 本发明公开了一种机器翻译文本的译后编辑方法,包括:获取源文本和机器翻译文本;通过自注意力机制提取源文本的第一文本特征,并利用前馈神经网络对第一文本特征进行处理,得到表示源文本的第一向量;通过自注意力机制提取机器翻译文本的第二文本特征,通过对第一向量使用注意力机制优化第二文本特征;利用前馈神经网络对优化后的第二文本特征进行处理,得到表示机器翻译文本的第二向量;根据第一向量和第二向量从左至右逐词生成机器翻译文本的译后编辑文本。该方法能够提高译后编辑的处理效率和准确率,使得处理得到的译后编辑文本的准确性更佳。本发明公开的一种机器翻译文本的译后编辑装置、设备及可读存储介质,也同样具有上述技术效果。
-
公开(公告)号:CN110210035B
公开(公告)日:2023-01-24
申请号:CN201910481021.2
申请日:2019-06-04
Applicant: 苏州大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种序列标注方法、装置、序列标注模型的训练方法、设备及计算机可读存储介质,该方案中序列标注模型的得分层包括与标注规范一一对应的第二得分层,还包括与全部标注规范对应的第一得分层,由于该模型中的得分层的独特设计,因此可以利用多种标注规范的异构数据作为该模型的训练集,扩充训练语料规模,而且该模型能够学习不同标注规范的语料之间的共性,从而提升模型在单一标注规范下的标注性能。此外,该模型的输出结果为捆绑标签序列,相当于直接得到多种标注规范下的标签序列,方便文本在不同标注规范之间的转化。
-
公开(公告)号:CN115292533A
公开(公告)日:2022-11-04
申请号:CN202210989022.X
申请日:2022-08-17
Applicant: 苏州大学
IPC: G06F16/532 , G06V10/74 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06V40/10 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种视觉定位驱动的跨模态行人检索方法,包括获取候选文本和候选图像、输入文本和待检索图像,提取文本的短语;使用训练完成的跨模态预训练模型提取候选文本的短语的特征和候选图像的特征并输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图,使用热点图训练跨模态交互模块;使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征并输入训练完成的跨模态交互模块计算待检索图像与候选图像的相似度,选择相似度最大的候选图像作为检索结果。本发明可以提高文本和图像语义信息的对应能力、提升局部对应能力,从而提高检索的准确率。
-
公开(公告)号:CN111611802B
公开(公告)日:2021-08-31
申请号:CN202010437407.6
申请日:2020-05-21
Applicant: 苏州大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种多领域实体识别方法。本专利中,我们主要做出了如下2个创新:1、针对目标领域无任何人工标注数据的跨领域场景,快速自动构建目标领域的弱标注数据。2、将局部标注学习应用到跨领域命名实体识别任务中。有益效果:在目标领域没有任何人工标注数据的场景下,有效改善源领域模型的领域自适应能力,在降低数据标注成本的同时,提高了目标领域的实体识别性能。
-
公开(公告)号:CN108647254B
公开(公告)日:2021-06-22
申请号:CN201810366793.7
申请日:2018-04-23
Applicant: 苏州大学
IPC: G06F16/31 , G06F40/284
Abstract: 本发明涉及一种基于模式嵌入的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于模式嵌入的自动树库转化方法,确定词wi和词wj的模式;将词wi和词wj的模式变换为对应的模式嵌入向量;将源端树中词wi、词wj、最小公共祖先节点wa三者分别对应的依存关系标签分别变换为依存关系嵌入向量;将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树中词wi和词wj的结构信息的表示向量,循环神经网络的顶层输出分别与表示向量拼接起来,作为感知器MLP的输入;利用双仿射计算获得词wi和词wj的目标端依存弧分值;本发明充分利用源端句法树,刻画两种标注规范的对应规律,最终完成高质量树库转化。
-
公开(公告)号:CN112906349A
公开(公告)日:2021-06-04
申请号:CN202110342499.4
申请日:2021-03-30
Applicant: 苏州大学
IPC: G06F40/117 , G06F40/14 , G06F40/211 , G06F40/279 , G06F40/30 , G06N20/00
Abstract: 本申请公开了一种数据标注的方法,包括:根据输入的数据标注任务确定待标注数据;调用数据标注模型对待标注数据进行数据标注,得到对应的数据标注结果;判断数据标注结果与输入的人工标注结果是否一致;若一致,则确认数据标注结果正确。相较于人标人校和机标人校的方式,本申请可以从根本上解决标注者的认同倾向问题,充分挖掘对问题的理解差异,促进标注指南的完善、标注者水平的提高;本申请通过结合机器自动标注的辅助,相较于多人独立标注的方法可以有效减少标注的时间成本和金钱成本,在保证数据标注质量的同时极大的降低了成本。本申请同时还提供了一种数据标注的系统、设备及可读存储介质,具有上述有益效果。
-
公开(公告)号:CN112214994B
公开(公告)日:2021-06-01
申请号:CN202011079701.0
申请日:2020-10-10
Applicant: 苏州大学
IPC: G06F40/242 , G06F40/289 , G06N3/02 , G06N3/08 , G06N20/00
Abstract: 本申请公开了一种基于多级词典的分词方法,该方法采用至少两个词典以辅助分词模型进行分词,在对字符进行表示的时候,不仅生成常规的向量表示,还生成该字符在至少两个词典中的特征表示,最终根据向量表示和特征表示确定该字符的成词标签。该方法通过区分不同词的地位和重要性,从而提升整体方案的分词性能,提升领域适应能力和分词准确性。此外,本申请还提供了一种基于多级词典的分词装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。
-
公开(公告)号:CN111178098A
公开(公告)日:2020-05-19
申请号:CN201911411188.8
申请日:2019-12-31
Applicant: 苏州大学
Abstract: 本发明公开了一种文本翻译方法,包括:对接收到的文本翻译请求进行解析,得到待翻译文本、待翻译文本对应的第一语种类别、以及需翻译为的第二语种类别;利用文本翻译模型中第一语种类别对应的目标情感分类器对待翻译文本进行情感分类,得到目标情感类别;利用文本翻译模型根据目标情感类别对待翻译文本进行情感标注,得到情感标注后待翻译文本;将情感标注后待翻译文本输入至文本翻译模型中的目标翻译系统,得到目标文本。本发明保证了文本翻译得到的目标文本与待翻译文本的情感一致性,较大地提高了文本翻译的准确率。本发明还公开了一种文本翻译装置、设备及存储介质,具有相应技术效果。
-
-
-
-
-
-
-
-
-