-
公开(公告)号:CN112232024A
公开(公告)日:2021-01-15
申请号:CN202011089840.1
申请日:2020-10-13
Applicant: 苏州大学
IPC: G06F40/117 , G06F40/211 , G06F40/289 , G06K9/62 , G06N3/04
Abstract: 本申请公开了一种基于多标注数据的依存句法分析模型训练方法,包括:获取词序列以及多种标注结果;将词序列输入依存句法分析模型,得到弧得分和标签得分;根据目标损失函数,计算弧得分和标签得分相对于多种标注结果的损失值;通过迭代训练,以最小化损失值为目的,调整依存句法分析模型的模型参数,以实现模型训练。可见,该方法能够根据目标损失函数计算模型输出结果相对于全部标注结果的损失值,并据此完成对模型的迭代训练,实现了充分利用全部标注数据中的有效信息的目的,提升了模型的依存句法分析能力。此外,本申请还提供了一种基于多标注数据的依存句法分析模型训练装置、设备及可读存储介质,其技术效果与上述方法相对应。
-
公开(公告)号:CN112214994A
公开(公告)日:2021-01-12
申请号:CN202011079701.0
申请日:2020-10-10
Applicant: 苏州大学
IPC: G06F40/242 , G06F40/289 , G06N3/02 , G06N3/08 , G06N20/00
Abstract: 本申请公开了一种基于多级词典的分词方法,该方法采用至少两个词典以辅助分词模型进行分词,在对字符进行表示的时候,不仅生成常规的向量表示,还生成该字符在至少两个词典中的特征表示,最终根据向量表示和特征表示确定该字符的成词标签。该方法通过区分不同词的地位和重要性,从而提升整体方案的分词性能,提升领域适应能力和分词准确性。此外,本申请还提供了一种基于多级词典的分词装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。
-
公开(公告)号:CN107818079A
公开(公告)日:2018-03-20
申请号:CN201710791701.5
申请日:2017-09-05
Applicant: 苏州大学
IPC: G06F17/27
CPC classification number: G06F17/2775
Abstract: 本发明涉及一种多粒度分词标注数据自动获取方法及系统,为了能够准确、快速、自动的获得多粒度分词标注数据而设计。本发明选择n种不同规范的单粒度分词标注数据集,将至少一种单粒度分词标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应的n种不同规范的分词序列为该句子的多粒度分词结果;合并每一个句子的多粒度分词结果,形成多粒度分词标注数据集。本发明首次提出了多粒度分词的概念;使用耦合序列标注模型进行不同规范间单粒度分词标注数据的转换,从而获取多粒度分词标注数据。
-
公开(公告)号:CN107729312A
公开(公告)日:2018-02-23
申请号:CN201710790736.7
申请日:2017-09-05
Applicant: 苏州大学
CPC classification number: G06F17/277 , G06N3/049
Abstract: 本发明涉及一种基于序列标注建模的多粒度分词方法与系统,提供了一种采用机器学习的方式获取多粒度标签序列的方法及系统,本发明所述的方法,包括:将至少一种单粒度标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,将每一个句子对应的n种遵守不同规范分词序列转化为多粒度分词层次结构,根据预定的编码方法以及多粒度分词层次结构,得到每一个句子的每一个字的多粒度标签,进而得到每一个句子的多粒度标签序列;基于所述的包含句子和对应多粒度标签序列的数据集,通过训练序列标注模型,得到多粒度序列标注模型。本发明首次提出了多粒度分词的概念,能够快速、自动的获取多粒度分词层次结构。
-
公开(公告)号:CN106202030B
公开(公告)日:2020-05-22
申请号:CN201610463435.9
申请日:2016-06-23
Applicant: 苏州大学
IPC: G06F40/205 , G06F40/279 , G06F16/33
Abstract: 本发明公开了一种基于异构标注数据的快速序列标注方法及装置。该方法包括以下步骤:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含耦合标记集的训练数据,训练基于条件随机场的标注模型;利用标注模型对待标注的样本数据进行标注。应用本发明实施例所提供的技术方案,达到了将不同标注数据库结合起来应用的目的,扩大了训练数据规模,提升了标注模型的性能。
-
公开(公告)号:CN109800298A
公开(公告)日:2019-05-24
申请号:CN201910085499.3
申请日:2019-01-29
Applicant: 苏州大学
IPC: G06F16/332 , G06F17/27
Abstract: 本发明公开了一种基于神经网络的中文分词模型的训练方法,为多种分词规范设置相应的语料特征向量,在获取多种分词规范的训练语料后,根据字的嵌入向量和语料特征向量确定字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,得到预测结果并据此调整模型参数,以完成训练。可见,该方法无需改变模型结构,只需在字的向量表示中增加相应的语料特征向量,并利用该向量表示对模型进行训练,不仅实现了扩充训练语料的目的,而且能够让模型学习不同分词规范之间的共性,从而达到提升单一分词规范下的分词性能的目的。此外,本发明还提供了一种基于神经网络的中文分词模型的训练装置、设备及计算机可读存储介质,其作用与上述方法相对应。
-
公开(公告)号:CN108647254A
公开(公告)日:2018-10-12
申请号:CN201810366793.7
申请日:2018-04-23
Applicant: 苏州大学
Abstract: 本发明涉及一种基于模式嵌入的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于模式嵌入的自动树库转化方法,确定词wi和词wj的模式;将词wi和词wj的模式变换为对应的模式嵌入向量;将源端树中词wi、词wj、最小公共祖先节点wa三者分别对应的依存关系标签分别变换为依存关系嵌入向量;将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树中词wi和词wj的结构信息的表示向量,循环神经网络的顶层输出分别与表示向量拼接起来,作为感知器MLP的输入;利用双仿射计算获得词wi和词wj的目标端依存弧分值;本发明充分利用源端句法树,刻画两种标注规范的对应规律,最终完成高质量树库转化。
-
公开(公告)号:CN108536662A
公开(公告)日:2018-09-14
申请号:CN201810338034.X
申请日:2018-04-16
Applicant: 苏州大学
IPC: G06F17/24
Abstract: 本发明公开了一种数据标注方法,包括:通过初始端获取不同初始用户输入的目标数据的初始标注信息;判断获取到的初始标注信息是否一致;若否,则将获取到的初始标注信息传输至第一审核端,通过第一审核端获取第一审核用户根据获取到的初始标注信息输入的目标数据的第一审核标注信息,并将第一审核标注信息确定为目标数据的最终标注信息并存储。由此当多个标注人员对于同一数据的标注结果存在差异时,由标注专家或者权威标注专家快速确定该数据的最佳标注结果,提高了数据标注的效率和准确率,有利于提高标注人员的业务水平和库存标注信息的准确率。相应地,本发明公开的一种数据标注装置、设备及计算机可读存储介质也同样具有上述技术效果。
-
公开(公告)号:CN104965821B
公开(公告)日:2018-01-05
申请号:CN201510422815.3
申请日:2015-07-17
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明提供一种数据标注方法及装置,通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从未标注的词中选取出最有歧义的词,对所选取出的最有歧义的词的依存关系进行人工标注,得到部分标注的待分析句子。即本发明实施提供的上述技术方案是一种基于部分标注的数据标注方法,其相对于现有完全标注方法来说降低工作量,并且发明人通过实验证明,对同等数量的待分析句子进行标注,本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80%的工作量,却取得与完全标注方法近似的准确度。
-
公开(公告)号:CN104965821A
公开(公告)日:2015-10-07
申请号:CN201510422815.3
申请日:2015-07-17
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/27
Abstract: 本发明提供一种数据标注方法及装置,通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从未标注的词中选取出最有歧义的词,对所选取出的最有歧义的词的依存关系进行人工标注,得到部分标注的待分析句子。即本发明实施提供的上述技术方案是一种基于部分标注的数据标注方法,其相对于现有完全标注方法来说降低工作量,并且发明人通过实验证明,对同等数量的待分析句子进行标注,本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80%的工作量,却取得与完全标注方法近似的准确度。
-
-
-
-
-
-
-
-
-