-
公开(公告)号:CN112380832A
公开(公告)日:2021-02-19
申请号:CN202011272435.3
申请日:2020-11-13
Applicant: 苏州大学
IPC: G06F40/194
Abstract: 本发明提供了一种文本匹配方法、装置、电子设备及存储介质,包括:获取第一文本和第二文本,第一文本和第二文本具有相同的文本结构,提取与第一文本中多个版块一一对应的多个第一单视角匹配特征;提取与第二文本中多个版块一一对应的多个第二单视角匹配特征,将属于相同版块的第一单视角匹配特征和第二单视角匹配特征进行拼接,得到多个拼接后的单视角匹配特征;融合多个拼接后的单视角匹配特征得到第一文本和第二文本的多视角匹配特征;利用多视角匹配特征计算第一文本与第二文本的多视角匹配概率;通过多视角匹配概率确定第一文本与第二文本是否匹配。由于多视角匹配特征综合考虑到了各个单视角特征的信息,能够大幅提升文本匹配的准确率。
-
公开(公告)号:CN110348018A
公开(公告)日:2019-10-18
申请号:CN201910642480.4
申请日:2019-07-16
Applicant: 苏州大学
Abstract: 本发明公开了一种使用局部学习完成简易事件抽取的方法。本发明一种使用局部学习完成简易事件抽取的方法,包括:标注规范构建过程:根据框架下的三类:动宾、双动词、其他,给出具体事件定义。本发明的有益效果:尝试解决远程监督获取的数据中存在的漏标和错标问题,提高模型对于命名实体的识别性能。
-
公开(公告)号:CN110210035A
公开(公告)日:2019-09-06
申请号:CN201910481021.2
申请日:2019-06-04
Applicant: 苏州大学
Abstract: 本申请公开了一种序列标注方法、装置、序列标注模型的训练方法、设备及计算机可读存储介质,该方案中序列标注模型的得分层包括与标注规范一一对应的第二得分层,还包括与全部标注规范对应的第一得分层,由于该模型中的得分层的独特设计,因此可以利用多种标注规范的异构数据作为该模型的训练集,扩充训练语料规模,而且该模型能够学习不同标注规范的语料之间的共性,从而提升模型在单一标注规范下的标注性能。此外,该模型的输出结果为捆绑标签序列,相当于直接得到多种标注规范下的标签序列,方便文本在不同标注规范之间的转化。
-
-
公开(公告)号:CN108628829A
公开(公告)日:2018-10-09
申请号:CN201810366795.6
申请日:2018-04-23
Applicant: 苏州大学
Abstract: 本发明涉及一种基于树形循环神经网络的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于树形循环神经网络的自动树库转化方法,包括:基于双向树形循环神经网络TreeLSTM,得到词wi、词wi、词wa的隐藏层输出向量 将隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量循环神经网络BiSeqLSTM顶层输出的输出向量分别与表示向量 拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息;利用双仿射计算词wi和词wj的目标端依存弧分值。本发明充分利用源端句法树,刻画两种标注规范的对应规律为建立高质量树有监督转化模型提供了必要的数据支持。
-
公开(公告)号:CN108536756A
公开(公告)日:2018-09-14
申请号:CN201810219963.9
申请日:2018-03-16
Applicant: 苏州大学
Abstract: 本发明公开了一种基于双语信息的情绪分类方法及系统,首先对收集的语料进行标注,得到标注样本,使用机器翻译程序,将中文语料翻译成英文语料、将英文语料翻译成中文语料,将两组中文语料进行合并得到最终的中文语料、将两组英文语料进行合并得到最终的英文语料;将中英文两组语料进行分词,使用词特征对文本进行特征表示;使用LSTM模型分别从中文词特征表示和英文词特征表示中学习更深层次的隐层特征;将学习到的两组隐层特征进行融合,训练情绪分类器进行情绪分类。本发明不仅解决了文本情绪分类任务中标注样本缺乏的问题,而且有效地提升了文本情绪分类任务的性能,在测试样本中取得了很好的情绪分类正确率。
-
公开(公告)号:CN108228564A
公开(公告)日:2018-06-29
申请号:CN201810007733.6
申请日:2018-01-04
Applicant: 苏州大学
Abstract: 本发明涉及一种在众包数据上进行对抗学习的命名实体识别方法,在特定的领域内,只要制定好实体标注规范,用众包标注的方法就能以较低的标注成本快速构建大规模标注语料,在一定程度上缓解了缺乏标注语料的困境,更好得使用众包数据,提高模型在众包数据上的学习质量:不同于之前的数据使用方式,我们使模型能自主地学习语料中由不同标注员造成的标注不当,在原来的模型上加入了对抗学习模型,以此判别出语料中的标注噪声,提高模型的识别能力,更好地趋向专家的高质量标注策略,丰富了神经网络模型的现实意义,使之符合具体的应用。
-
公开(公告)号:CN106951539A
公开(公告)日:2017-07-14
申请号:CN201710178304.0
申请日:2017-03-23
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本申请公开了一种信息真伪验证方法及系统,该方法包括:从不同的数据源中选取出与目标实体的特定属性对应的属性值,得到相应的属性值集合;从属性值集合中筛选出具有最多出现频次的属性值,并将该属性值确定为特定属性的正确属性值。本申请从不同的数据源中选取出与目标实体的特定属性对应的属性值之后,将会从上述得到的属性值集合中筛选出具有最多出现频次的属性值,由于该属性值在上述属性值集合中出现的次数最多,则意味着该属性值最为公众所认可和采用,所以本申请便将该属性值确定为上述特定属性的正确属性值,从而有利于大幅提升最终筛选到的信息的准确性。
-
公开(公告)号:CN106202030A
公开(公告)日:2016-12-07
申请号:CN201610463435.9
申请日:2016-06-23
Applicant: 苏州大学
Abstract: 本发明公开了一种基于异构标注数据的快速序列标注方法及装置。该方法包括以下步骤:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含耦合标记集的训练数据,训练基于条件随机场的标注模型;利用标注模型对待标注的样本数据进行标注。应用本发明实施例所提供的技术方案,达到了将不同标注数据库结合起来应用的目的,扩大了训练数据规模,提升了标注模型的性能。
-
公开(公告)号:CN105955966A
公开(公告)日:2016-09-21
申请号:CN201610235521.4
申请日:2016-04-15
Applicant: 苏州大学
IPC: G06F17/28
CPC classification number: G06F17/2881 , G06F17/289
Abstract: 本发明公开了一种改进训练语料的平行质量的方法及装置。该方法包括:在预先获得的训练语料库中确定待纠正的目标句对,目标句对包括原文句子和相对应的译文句子;从目标句对的所有组合划分点中,选择一个可用组合划分点;利用可用组合划分点划分目标句对,获得原文句子的两个子句和译文句子的两个子句;确定获得的子句构成的子句对是否平行及各子句间的非平行关系;根据预设的对应规则,使用与确定的非平行关系对应的纠正方式纠正目标句对。应用本发明实施例所提供的技术方案,改进了训练语料的平行质量,提升了统计机器翻译系统的翻译性能。
-
-
-
-
-
-
-
-
-