文本匹配方法、装置、电子设备及计算机可读存储介质

    公开(公告)号:CN112380832B

    公开(公告)日:2024-01-30

    申请号:CN202011272435.3

    申请日:2020-11-13

    Applicant: 苏州大学

    Abstract: 本发明提供了一种文本匹配方法、装置、电子设备及存储介质,包括:获取第一文本和第二文本,第一文本和第二文本具有相同的文本结构,提取与第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与第二文本中多个版块一一对应的多个第二单视角匹配特征,将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征;融合多个拼接后的单视角匹配特征得到第一文本和第二文本的多视角匹配特征;利用多视角匹配特征计算第一文本与第二文本的多视角匹配概率;通过多视角匹配概率确定第一文本与第二文本是否匹配。由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。

    一种非自回归机器翻译系统、方法和电子设备

    公开(公告)号:CN116502654A

    公开(公告)日:2023-07-28

    申请号:CN202310321437.4

    申请日:2023-03-29

    Applicant: 苏州大学

    Abstract: 本发明涉及一种非自回归机器翻译系统、方法和电子设备,系统包括:对源序列X依次进行序列化和编码,得到编码序列;以序列化后的源序列X为基准,对所述编码序列进行解码,得到带有噪声的序列Ypot;对所述带有噪声的序列Ypot中的错误信息进行掩码,得到掩码序列;将所述编码序列作为注意力机制,对所述掩码序列中被掩码的错误信息进行预测,得到预测结果;将所述预测结果与所述带有噪声的序列Ypot中未被掩码的信息进行组合,得到翻译结果。本发明能够对待翻译的文本进行有效翻译,且翻译效率较高。

    一种基于神经网络的中文分词模型的训练方法

    公开(公告)号:CN109800298B

    公开(公告)日:2023-06-16

    申请号:CN201910085499.3

    申请日:2019-01-29

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于神经网络的中文分词模型的训练方法,为多种分词规范设置相应的语料特征向量,在获取多种分词规范的训练语料后,根据字的嵌入向量和语料特征向量确定字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,得到预测结果并据此调整模型参数,以完成训练。可见,该方法无需改变模型结构,只需在字的向量表示中增加相应的语料特征向量,并利用该向量表示对模型进行训练,不仅实现了扩充训练语料的目的,而且能够让模型学习不同分词规范之间的共性,从而达到提升单一分词规范下的分词性能的目的。此外,本发明还提供了一种基于神经网络的中文分词模型的训练装置、设备及计算机可读存储介质,其作用与上述方法相对应。

    一种文本实体检测方法、系统及相关组件

    公开(公告)号:CN110348017B

    公开(公告)日:2022-12-23

    申请号:CN201910636562.8

    申请日:2019-07-15

    Applicant: 苏州大学

    Abstract: 本申请公开了一种文本实体检测方法,所述文本实体检测方法包括利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。本方法能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。本申请还公开了一种文本实体检测系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。

    一种属性抽取方法、装置及存储介质

    公开(公告)号:CN114817564A

    公开(公告)日:2022-07-29

    申请号:CN202210458635.0

    申请日:2022-04-15

    Applicant: 苏州大学

    Abstract: 本发明将属性抽取任务化为片段抽取式阅读理解任务,采用属性抽取与文本属性判断联合训练的多任务模型。模型以BERT‑B i‑LSTM作为编码模块,分别对输入文本与问题编码,将结构化信息作为问题来增强模型的泛化能力。然后使用词边界特征增强的方法以帮助模型捕获属性值的边界特征,结合多头注意力机制在全局向量特征的基础上融入词汇特征。同时,设计一种文本特征交互方法,用于判断文本中是否存在与问题对应的属性值,该方法作为辅助任务与属性值边界预测任务联合训练。

    基于语法规约指导的神经机器翻译方法

    公开(公告)号:CN108984538B

    公开(公告)日:2022-05-31

    申请号:CN201810784072.8

    申请日:2018-07-17

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于语法规约指导的神经机器翻译方法,为了得到更加精准的神经翻译模型而设计。本发明基于语法规约指导的神经机器翻译方法,本发明对源端和目标端都进行指导:在源端,添加了注意力损失来指导注意力集中在源端短语上;在目标端通过一层子网络来指导目标端词关注到合适的目标端短语上。网络的源端和目标端构成一个汇总损失,称为指导损失,用于指导NMT。本发明能够有效地改善神经机器翻译质量。

    基于领域自适应的文本信息提取方法、装置、系统及介质

    公开(公告)号:CN108664589B

    公开(公告)日:2022-03-15

    申请号:CN201810431979.6

    申请日:2018-05-08

    Applicant: 苏州大学

    Inventor: 陈文亮 卢奇 张民

    Abstract: 本申请公开了一种基于领域自适应的文本信息提取方法,包括:对输入文本进行预处理,得到文本向量;根据第二领域与第一领域间的共有特征提取参数提取文本向量的共有特征,根据第一领域内的私有特征提取参数提取文本向量的私有特征;对进行领域模糊后的共有特征进行领域分类;根据分类结果以及第一领域的领域信息对共有特征提取参数进行分析修正;根据私有特征对文本向量进行相邻词语预测;根据预测结果以及文本中的相邻词语对私有特征提取参数进行分析修正。该方法可提升社交媒体等领域的文本分析提取能力。本申请还公开了基于领域自适应的文本信息提取装置、系统及可读存储介质,具有上述有益效果。

    基于树形循环神经网络的自动树库转化方法及系统

    公开(公告)号:CN108628829B

    公开(公告)日:2022-03-15

    申请号:CN201810366795.6

    申请日:2018-04-23

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于树形循环神经网络的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于树形循环神经网络的自动树库转化方法,包括:基于双向树形循环神经网络TreeLSTM,得到词wi、词wi、词wa的隐藏层输出向量将隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量循环神经网络BiSeqLSTM顶层输出的输出向量分别与表示向量拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息;利用双仿射计算词wi和词wj的目标端依存弧分值。本发明充分利用源端句法树,刻画两种标注规范的对应规律为建立高质量树有监督转化模型提供了必要的数据支持。

Patent Agency Ranking