属性词识别及其层次构建方法、装置、设备及存储介质

    公开(公告)号:CN109492214B

    公开(公告)日:2023-09-19

    申请号:CN201710813362.6

    申请日:2017-09-11

    Abstract: 本发明提供一种属性词识别方法及装置,包括:获取评论语料的名词词表;获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;根据各词的所述预测上位词向量确定种子词的属性词。该方法及装置,仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。本发明还提供一种与上述属性词识别方法及装置对应的属性词的层次构建方法及装置,以及一种计算机设备及计算机存储介质。

    一种基于神经网络的中文分词模型的训练方法

    公开(公告)号:CN109800298B

    公开(公告)日:2023-06-16

    申请号:CN201910085499.3

    申请日:2019-01-29

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于神经网络的中文分词模型的训练方法,为多种分词规范设置相应的语料特征向量,在获取多种分词规范的训练语料后,根据字的嵌入向量和语料特征向量确定字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,得到预测结果并据此调整模型参数,以完成训练。可见,该方法无需改变模型结构,只需在字的向量表示中增加相应的语料特征向量,并利用该向量表示对模型进行训练,不仅实现了扩充训练语料的目的,而且能够让模型学习不同分词规范之间的共性,从而达到提升单一分词规范下的分词性能的目的。此外,本发明还提供了一种基于神经网络的中文分词模型的训练装置、设备及计算机可读存储介质,其作用与上述方法相对应。

    基于树形循环神经网络的自动树库转化方法及系统

    公开(公告)号:CN108628829B

    公开(公告)日:2022-03-15

    申请号:CN201810366795.6

    申请日:2018-04-23

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于树形循环神经网络的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于树形循环神经网络的自动树库转化方法,包括:基于双向树形循环神经网络TreeLSTM,得到词wi、词wi、词wa的隐藏层输出向量将隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量循环神经网络BiSeqLSTM顶层输出的输出向量分别与表示向量拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息;利用双仿射计算词wi和词wj的目标端依存弧分值。本发明充分利用源端句法树,刻画两种标注规范的对应规律为建立高质量树有监督转化模型提供了必要的数据支持。

    序列标注方法、装置及序列标注模型的训练方法

    公开(公告)号:CN110210035A

    公开(公告)日:2019-09-06

    申请号:CN201910481021.2

    申请日:2019-06-04

    Applicant: 苏州大学

    Abstract: 本申请公开了一种序列标注方法、装置、序列标注模型的训练方法、设备及计算机可读存储介质,该方案中序列标注模型的得分层包括与标注规范一一对应的第二得分层,还包括与全部标注规范对应的第一得分层,由于该模型中的得分层的独特设计,因此可以利用多种标注规范的异构数据作为该模型的训练集,扩充训练语料规模,而且该模型能够学习不同标注规范的语料之间的共性,从而提升模型在单一标注规范下的标注性能。此外,该模型的输出结果为捆绑标签序列,相当于直接得到多种标注规范下的标签序列,方便文本在不同标注规范之间的转化。

    基于树形循环神经网络的自动树库转化方法及系统

    公开(公告)号:CN108628829A

    公开(公告)日:2018-10-09

    申请号:CN201810366795.6

    申请日:2018-04-23

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于树形循环神经网络的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于树形循环神经网络的自动树库转化方法,包括:基于双向树形循环神经网络TreeLSTM,得到词wi、词wi、词wa的隐藏层输出向量 将隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量循环神经网络BiSeqLSTM顶层输出的输出向量分别与表示向量 拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息;利用双仿射计算词wi和词wj的目标端依存弧分值。本发明充分利用源端句法树,刻画两种标注规范的对应规律为建立高质量树有监督转化模型提供了必要的数据支持。

    一种信息真伪验证方法及系统
    6.
    发明公开

    公开(公告)号:CN106951539A

    公开(公告)日:2017-07-14

    申请号:CN201710178304.0

    申请日:2017-03-23

    Applicant: 苏州大学

    CPC classification number: G06F17/30864

    Abstract: 本申请公开了一种信息真伪验证方法及系统,该方法包括:从不同的数据源中选取出与目标实体的特定属性对应的属性值,得到相应的属性值集合;从属性值集合中筛选出具有最多出现频次的属性值,并将该属性值确定为特定属性的正确属性值。本申请从不同的数据源中选取出与目标实体的特定属性对应的属性值之后,将会从上述得到的属性值集合中筛选出具有最多出现频次的属性值,由于该属性值在上述属性值集合中出现的次数最多,则意味着该属性值最为公众所认可和采用,所以本申请便将该属性值确定为上述特定属性的正确属性值,从而有利于大幅提升最终筛选到的信息的准确性。

    一种基于异构标注数据的快速序列标注方法及装置

    公开(公告)号:CN106202030A

    公开(公告)日:2016-12-07

    申请号:CN201610463435.9

    申请日:2016-06-23

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于异构标注数据的快速序列标注方法及装置。该方法包括以下步骤:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含耦合标记集的训练数据,训练基于条件随机场的标注模型;利用标注模型对待标注的样本数据进行标注。应用本发明实施例所提供的技术方案,达到了将不同标注数据库结合起来应用的目的,扩大了训练数据规模,提升了标注模型的性能。

    一种基于异构数据库的耦合词性标注方法

    公开(公告)号:CN104965820A

    公开(公告)日:2015-10-07

    申请号:CN201510422718.4

    申请日:2015-07-17

    Abstract: 本发明公开了一种基于异构数据库的耦合词性标注方法。该方法根据预设映射规则对异构数据库的词性标注集进行映射处理,建立耦合词性标注集。进而,利用该耦合词性标注集对训练数据进行转换,并采用耦合词性标注集标注的训练数据对CRF词性标注模型进行训练,以使训练后的CRF词性标注模型能够自动挖掘识别异构数据中不同的词性标记间的映射关系。与现有技术相比,本发明通过一次建模过程即可完成异构数据库之间词性标注的识别和转换过程,提高了词性标注的鲁棒性和准确率。

    一种数据标注方法及装置

    公开(公告)号:CN108536662B

    公开(公告)日:2022-04-12

    申请号:CN201810338034.X

    申请日:2018-04-16

    Applicant: 苏州大学

    Abstract: 本发明公开了一种数据标注方法,包括:通过初始端获取不同初始用户输入的目标数据的初始标注信息;判断获取到的初始标注信息是否一致;若否,则将获取到的初始标注信息传输至第一审核端,通过第一审核端获取第一审核用户根据获取到的初始标注信息输入的目标数据的第一审核标注信息,并将第一审核标注信息确定为目标数据的最终标注信息并存储。由此当多个标注人员对于同一数据的标注结果存在差异时,由标注专家或者权威标注专家快速确定该数据的最佳标注结果,提高了数据标注的效率和准确率,有利于提高标注人员的业务水平和库存标注信息的准确率。相应地,本发明公开的一种数据标注装置、设备及计算机可读存储介质也同样具有上述技术效果。

    基于序列标注建模的多粒度分词方法及系统

    公开(公告)号:CN107729312B

    公开(公告)日:2021-04-20

    申请号:CN201710790736.7

    申请日:2017-09-05

    Applicant: 苏州大学

    Inventor: 张民 李正华 龚晨

    Abstract: 本发明涉及一种基于序列标注建模的多粒度分词方法与系统,提供了一种采用机器学习的方式获取多粒度标签序列的方法及系统,本发明所述的方法,包括:将至少一种单粒度标注数据集中的句子分别转化为遵守其他n‑1种分词规范的分词序列,将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,根据预定的编码方法以及多粒度分词层次结构,得到每一个句子的每一个字的多粒度标签,进而得到每一个句子的多粒度标签序列;基于所述的包含句子和对应多粒度标签序列的数据集,通过训练序列标注模型,得到多粒度序列标注模型。本发明首次提出了多粒度分词的概念,能够快速、自动的获取多粒度分词层次结构。

Patent Agency Ranking