-
公开(公告)号:CN110210035B
公开(公告)日:2023-01-24
申请号:CN201910481021.2
申请日:2019-06-04
Applicant: 苏州大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种序列标注方法、装置、序列标注模型的训练方法、设备及计算机可读存储介质,该方案中序列标注模型的得分层包括与标注规范一一对应的第二得分层,还包括与全部标注规范对应的第一得分层,由于该模型中的得分层的独特设计,因此可以利用多种标注规范的异构数据作为该模型的训练集,扩充训练语料规模,而且该模型能够学习不同标注规范的语料之间的共性,从而提升模型在单一标注规范下的标注性能。此外,该模型的输出结果为捆绑标签序列,相当于直接得到多种标注规范下的标签序列,方便文本在不同标注规范之间的转化。
-
公开(公告)号:CN108647254B
公开(公告)日:2021-06-22
申请号:CN201810366793.7
申请日:2018-04-23
Applicant: 苏州大学
IPC: G06F16/31 , G06F40/284
Abstract: 本发明涉及一种基于模式嵌入的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于模式嵌入的自动树库转化方法,确定词wi和词wj的模式;将词wi和词wj的模式变换为对应的模式嵌入向量;将源端树中词wi、词wj、最小公共祖先节点wa三者分别对应的依存关系标签分别变换为依存关系嵌入向量;将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树中词wi和词wj的结构信息的表示向量,循环神经网络的顶层输出分别与表示向量拼接起来,作为感知器MLP的输入;利用双仿射计算获得词wi和词wj的目标端依存弧分值;本发明充分利用源端句法树,刻画两种标注规范的对应规律,最终完成高质量树库转化。
-
公开(公告)号:CN112906349A
公开(公告)日:2021-06-04
申请号:CN202110342499.4
申请日:2021-03-30
Applicant: 苏州大学
IPC: G06F40/117 , G06F40/14 , G06F40/211 , G06F40/279 , G06F40/30 , G06N20/00
Abstract: 本申请公开了一种数据标注的方法,包括:根据输入的数据标注任务确定待标注数据;调用数据标注模型对待标注数据进行数据标注,得到对应的数据标注结果;判断数据标注结果与输入的人工标注结果是否一致;若一致,则确认数据标注结果正确。相较于人标人校和机标人校的方式,本申请可以从根本上解决标注者的认同倾向问题,充分挖掘对问题的理解差异,促进标注指南的完善、标注者水平的提高;本申请通过结合机器自动标注的辅助,相较于多人独立标注的方法可以有效减少标注的时间成本和金钱成本,在保证数据标注质量的同时极大的降低了成本。本申请同时还提供了一种数据标注的系统、设备及可读存储介质,具有上述有益效果。
-
公开(公告)号:CN112214994B
公开(公告)日:2021-06-01
申请号:CN202011079701.0
申请日:2020-10-10
Applicant: 苏州大学
IPC: G06F40/242 , G06F40/289 , G06N3/02 , G06N3/08 , G06N20/00
Abstract: 本申请公开了一种基于多级词典的分词方法,该方法采用至少两个词典以辅助分词模型进行分词,在对字符进行表示的时候,不仅生成常规的向量表示,还生成该字符在至少两个词典中的特征表示,最终根据向量表示和特征表示确定该字符的成词标签。该方法通过区分不同词的地位和重要性,从而提升整体方案的分词性能,提升领域适应能力和分词准确性。此外,本申请还提供了一种基于多级词典的分词装置、设备及可读存储介质,其技术效果与上述方法的技术效果相对应。
-
公开(公告)号:CN109492214A
公开(公告)日:2019-03-19
申请号:CN201710813362.6
申请日:2017-09-11
Applicant: 苏州大学 , 腾讯科技(深圳)有限公司
IPC: G06F17/27
Abstract: 本发明提供一种属性词识别方法及装置,包括:获取评论语料的名词词表;获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;根据各词的所述预测上位词向量确定种子词的属性词。该方法及装置,仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。本发明还提供一种与上述属性词识别方法及装置对应的属性词的层次构建方法及装置,以及一种计算机设备及计算机存储介质。
-
-
-
-