-
公开(公告)号:CN110348017B
公开(公告)日:2022-12-23
申请号:CN201910636562.8
申请日:2019-07-15
Applicant: 苏州大学
IPC: G06F40/295 , G06F16/33 , G06N3/08
Abstract: 本申请公开了一种文本实体检测方法,所述文本实体检测方法包括利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。本方法能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。本申请还公开了一种文本实体检测系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。
-
公开(公告)号:CN114817564A
公开(公告)日:2022-07-29
申请号:CN202210458635.0
申请日:2022-04-15
Applicant: 苏州大学
IPC: G06F16/36 , G06F16/35 , G06F40/284 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本发明将属性抽取任务化为片段抽取式阅读理解任务,采用属性抽取与文本属性判断联合训练的多任务模型。模型以BERT‑B i‑LSTM作为编码模块,分别对输入文本与问题编码,将结构化信息作为问题来增强模型的泛化能力。然后使用词边界特征增强的方法以帮助模型捕获属性值的边界特征,结合多头注意力机制在全局向量特征的基础上融入词汇特征。同时,设计一种文本特征交互方法,用于判断文本中是否存在与问题对应的属性值,该方法作为辅助任务与属性值边界预测任务联合训练。
-
公开(公告)号:CN108664589B
公开(公告)日:2022-03-15
申请号:CN201810431979.6
申请日:2018-05-08
Applicant: 苏州大学
IPC: G06F16/35 , G06F16/33 , G06F40/295
Abstract: 本申请公开了一种基于领域自适应的文本信息提取方法,包括:对输入文本进行预处理,得到文本向量;根据第二领域与第一领域间的共有特征提取参数提取文本向量的共有特征,根据第一领域内的私有特征提取参数提取文本向量的私有特征;对进行领域模糊后的共有特征进行领域分类;根据分类结果以及第一领域的领域信息对共有特征提取参数进行分析修正;根据私有特征对文本向量进行相邻词语预测;根据预测结果以及文本中的相邻词语对私有特征提取参数进行分析修正。该方法可提升社交媒体等领域的文本分析提取能力。本申请还公开了基于领域自适应的文本信息提取装置、系统及可读存储介质,具有上述有益效果。
-
公开(公告)号:CN108628829B
公开(公告)日:2022-03-15
申请号:CN201810366795.6
申请日:2018-04-23
Applicant: 苏州大学
IPC: G06F40/211 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于树形循环神经网络的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于树形循环神经网络的自动树库转化方法,包括:基于双向树形循环神经网络TreeLSTM,得到词wi、词wi、词wa的隐藏层输出向量将隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量循环神经网络BiSeqLSTM顶层输出的输出向量分别与表示向量拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息;利用双仿射计算词wi和词wj的目标端依存弧分值。本发明充分利用源端句法树,刻画两种标注规范的对应规律为建立高质量树有监督转化模型提供了必要的数据支持。
-
公开(公告)号:CN112765959A
公开(公告)日:2021-05-07
申请号:CN202011645068.7
申请日:2020-12-31
Applicant: 康佳集团股份有限公司 , 苏州大学 , 哈尔滨工业大学(深圳) , 深圳哈工大科技创新产业发展有限公司
IPC: G06F40/216 , G06F40/284 , G06N3/04
Abstract: 本发明公开一种意图识别方法、装置、设备及计算机可读存储介质,其中,所述意图识别方法包括步骤:获取文字信息,并通过词嵌入表将文字信息转化成词向量;将词向量输入双向LSTM模型,通过双向LSTM模型的编辑层输出文本向量;根据文本向量计算文字信息中所有词汇的概率;将概率中的最大值对应的词汇确定为意图词汇,实现了不需更换数据转换规则的情况下智能识别用户的意图,提高了识别效率。
-
公开(公告)号:CN110348018A
公开(公告)日:2019-10-18
申请号:CN201910642480.4
申请日:2019-07-16
Applicant: 苏州大学
Abstract: 本发明公开了一种使用局部学习完成简易事件抽取的方法。本发明一种使用局部学习完成简易事件抽取的方法,包括:标注规范构建过程:根据框架下的三类:动宾、双动词、其他,给出具体事件定义。本发明的有益效果:尝试解决远程监督获取的数据中存在的漏标和错标问题,提高模型对于命名实体的识别性能。
-
公开(公告)号:CN108628829A
公开(公告)日:2018-10-09
申请号:CN201810366795.6
申请日:2018-04-23
Applicant: 苏州大学
Abstract: 本发明涉及一种基于树形循环神经网络的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于树形循环神经网络的自动树库转化方法,包括:基于双向树形循环神经网络TreeLSTM,得到词wi、词wi、词wa的隐藏层输出向量 将隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量循环神经网络BiSeqLSTM顶层输出的输出向量分别与表示向量 拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息;利用双仿射计算词wi和词wj的目标端依存弧分值。本发明充分利用源端句法树,刻画两种标注规范的对应规律为建立高质量树有监督转化模型提供了必要的数据支持。
-
公开(公告)号:CN108228564A
公开(公告)日:2018-06-29
申请号:CN201810007733.6
申请日:2018-01-04
Applicant: 苏州大学
Abstract: 本发明涉及一种在众包数据上进行对抗学习的命名实体识别方法,在特定的领域内,只要制定好实体标注规范,用众包标注的方法就能以较低的标注成本快速构建大规模标注语料,在一定程度上缓解了缺乏标注语料的困境,更好得使用众包数据,提高模型在众包数据上的学习质量:不同于之前的数据使用方式,我们使模型能自主地学习语料中由不同标注员造成的标注不当,在原来的模型上加入了对抗学习模型,以此判别出语料中的标注噪声,提高模型的识别能力,更好地趋向专家的高质量标注策略,丰富了神经网络模型的现实意义,使之符合具体的应用。
-
公开(公告)号:CN106951539A
公开(公告)日:2017-07-14
申请号:CN201710178304.0
申请日:2017-03-23
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本申请公开了一种信息真伪验证方法及系统,该方法包括:从不同的数据源中选取出与目标实体的特定属性对应的属性值,得到相应的属性值集合;从属性值集合中筛选出具有最多出现频次的属性值,并将该属性值确定为特定属性的正确属性值。本申请从不同的数据源中选取出与目标实体的特定属性对应的属性值之后,将会从上述得到的属性值集合中筛选出具有最多出现频次的属性值,由于该属性值在上述属性值集合中出现的次数最多,则意味着该属性值最为公众所认可和采用,所以本申请便将该属性值确定为上述特定属性的正确属性值,从而有利于大幅提升最终筛选到的信息的准确性。
-
公开(公告)号:CN104965820A
公开(公告)日:2015-10-07
申请号:CN201510422718.4
申请日:2015-07-17
Applicant: 苏州大学张家港工业技术研究院
Abstract: 本发明公开了一种基于异构数据库的耦合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理,建立耦合词性标注集。进而,利用该耦合词性标注集对训练数据进行转换,并采用耦合词性标注集标注的训练数据对CRF词性标注模型进行训练,以使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比,本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程,提高了词性标注的鲁棒性和准确率。
-
-
-
-
-
-
-
-
-