-
公开(公告)号:CN105824898A
公开(公告)日:2016-08-03
申请号:CN201610143169.1
申请日:2016-03-14
Applicant: 苏州大学
Abstract: 本申请公开的网络评论的标签提取方法和装置,对评论短句进行评论对象和情感类别的标注。然后按照评论对象进行统计,统计同一评论对象中情感类别为正面情感的评论短句数量,以及情感类别为负面情感的评论短句数量,并将统计结果作为标签进行提取。与仅将评论短句进行语义去重提取标签的方法相比,标签中含有评论短句评述的对象,以及对评述对象的正面和负面评论条数信息,可以将商品的某一方面信息以更加简洁的标签形式进行展示,改善用户的购物体验。
-
公开(公告)号:CN112765959B
公开(公告)日:2024-05-28
申请号:CN202011645068.7
申请日:2020-12-31
Applicant: 康佳集团股份有限公司 , 苏州大学 , 哈尔滨工业大学(深圳) , 深圳哈工大科技创新产业发展有限公司
IPC: G06F40/216 , G06F40/284 , G06N3/0442
Abstract: 本发明公开一种意图识别方法、装置、设备及计算机可读存储介质,其中,所述意图识别方法包括步骤:获取文字信息,并通过词嵌入表将文字信息转化成词向量;将词向量输入双向LSTM模型,通过双向LSTM模型的编辑层输出文本向量;根据文本向量计算文字信息中所有词汇的概率;将概率中的最大值对应的词汇确定为意图词汇,实现了不需更换数据转换规则的情况下智能识别用户的意图,提高了识别效率。
-
公开(公告)号:CN108536662B
公开(公告)日:2022-04-12
申请号:CN201810338034.X
申请日:2018-04-16
Applicant: 苏州大学
IPC: G06F40/169
Abstract: 本发明公开了一种数据标注方法,包括:通过初始端获取不同初始用户输入的目标数据的初始标注信息;判断获取到的初始标注信息是否一致;若否,则将获取到的初始标注信息传输至第一审核端,通过第一审核端获取第一审核用户根据获取到的初始标注信息输入的目标数据的第一审核标注信息,并将第一审核标注信息确定为目标数据的最终标注信息并存储。由此当多个标注人员对于同一数据的标注结果存在差异时,由标注专家或者权威标注专家快速确定该数据的最佳标注结果,提高了数据标注的效率和准确率,有利于提高标注人员的业务水平和库存标注信息的准确率。相应地,本发明公开的一种数据标注装置、设备及计算机可读存储介质也同样具有上述技术效果。
-
公开(公告)号:CN112434133A
公开(公告)日:2021-03-02
申请号:CN202011389237.5
申请日:2020-12-02
Applicant: 康佳集团股份有限公司 , 苏州大学 , 哈尔滨工业大学(深圳) , 深圳哈工大科技创新产业发展有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种意图分类方法、装置、智能终端及存储介质,其中,上述意图分类方法包括:获取目标文本;基于上述目标文本进行命名实体识别,获取命名实体识别结果;基于上述命名实体识别结果,对上述目标文本进行规范化处理,获取规范化处理后的文本句式,作为规范化处理结果;基于上述目标文本和上述规范化处理结果进行意图分类;输出上述意图分类的结果。本发明方案不必基于模板进行意图分析,且可以结合文本的句式特征强化意图分类的性能;使得意图分类时不依赖于模板,不受数据规模以及数据质量的影响,同时可缓解进行分类时遗忘文本特征的问题,有利于提高意图分类的准确性。
-
公开(公告)号:CN111611802A
公开(公告)日:2020-09-01
申请号:CN202010437407.6
申请日:2020-05-21
Applicant: 苏州大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种多领域实体识别方法。本专利中,我们主要做出了如下2个创新:1、针对目标领域无任何人工标注数据的跨领域场景,快速自动构建目标领域的弱标注数据。2、将局部标注学习应用到跨领域命名实体识别任务中。有益效果:在目标领域没有任何人工标注数据的场景下,有效改善源领域模型的领域自适应能力,在降低数据标注成本的同时,提高了目标领域的实体识别性能。
-
公开(公告)号:CN108845988A
公开(公告)日:2018-11-20
申请号:CN201810581154.2
申请日:2018-06-07
Applicant: 苏州大学
Abstract: 本发明公开了一种实体识别方法、装置、设备及计算机可读存储介质,该方法包括:获取训练数据集为当前数据集;利用当前数据集训练当前识别模型得到当前识别模型,判断其识别准确度是否达到准确度阈值,若是,则确定完成训练,若否,则调整当前识别模型的参数得到当前识别模型,将当前数据集中每个训练样本的样本特征输入至当前选取模型,计算当前选取模型输出的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有决策为保留的全部训练样本的数据集作为当前数据集,返回执行训练当前识别模型的步骤;利用实体识别模型实现实体识别,基于识别到的实体实现对应产品的推荐。保证实体识别模型识别性能较好,实现产品的准确推荐。
-
公开(公告)号:CN106951412A
公开(公告)日:2017-07-14
申请号:CN201710182656.3
申请日:2017-03-24
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明公开了一种中文情感表达组合抽取方法,包括:提取目标中文语句库中每个语句包含的对象、观点词和关系词;构建该语句对应的一个或多个组合项,每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系,每个情感表达组合为一个对象和一个观点词构成的二元对;对所有语句对应的组合项进行汇总,确定组合项候选集;根据情感表达组合与关系词的映射关系,对组合项候选集中的情感表达组合进行排序;根据排序结果,确定待抽取的情感表达组合。应用本发明实施例所提供的技术方案,抽取到具体的情感表达组合,可以作为情感分析的情感资源,提高情感分析的可靠性。本发明还公开了一种中文情感表达组合抽取装置,具有相应技术效果。
-
公开(公告)号:CN112434133B
公开(公告)日:2024-05-17
申请号:CN202011389237.5
申请日:2020-12-02
Applicant: 康佳集团股份有限公司 , 苏州大学 , 哈尔滨工业大学(深圳) , 深圳哈工大科技创新产业发展有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35 , G06F40/295 , G06F40/30 , G06N3/0442 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种意图分类方法、装置、智能终端及存储介质,其中,上述意图分类方法包括:获取目标文本;基于上述目标文本进行命名实体识别,获取命名实体识别结果;基于上述命名实体识别结果,对上述目标文本进行规范化处理,获取规范化处理后的文本句式,作为规范化处理结果;基于上述目标文本和上述规范化处理结果进行意图分类;输出上述意图分类的结果。本发明方案不必基于模板进行意图分析,且可以结合文本的句式特征强化意图分类的性能;使得意图分类时不依赖于模板,不受数据规模以及数据质量的影响,同时可缓解进行分类时遗忘文本特征的问题,有利于提高意图分类的准确性。
-
公开(公告)号:CN109492214B
公开(公告)日:2023-09-19
申请号:CN201710813362.6
申请日:2017-09-11
Applicant: 苏州大学 , 腾讯科技(深圳)有限公司
IPC: G06F40/284
Abstract: 本发明提供一种属性词识别方法及装置,包括:获取评论语料的名词词表;获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;根据各词的所述预测上位词向量确定种子词的属性词。该方法及装置,仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。本发明还提供一种与上述属性词识别方法及装置对应的属性词的层次构建方法及装置,以及一种计算机设备及计算机存储介质。
-
公开(公告)号:CN109800298B
公开(公告)日:2023-06-16
申请号:CN201910085499.3
申请日:2019-01-29
Applicant: 苏州大学
IPC: G06N3/08 , G06N3/045 , G06N3/0442 , G06F40/216 , G06F40/284
Abstract: 本发明公开了一种基于神经网络的中文分词模型的训练方法,为多种分词规范设置相应的语料特征向量,在获取多种分词规范的训练语料后,根据字的嵌入向量和语料特征向量确定字的向量表示,最后将文本句中各个字的向量表示输入中文分词模型,得到预测结果并据此调整模型参数,以完成训练。可见,该方法无需改变模型结构,只需在字的向量表示中增加相应的语料特征向量,并利用该向量表示对模型进行训练,不仅实现了扩充训练语料的目的,而且能够让模型学习不同分词规范之间的共性,从而达到提升单一分词规范下的分词性能的目的。此外,本发明还提供了一种基于神经网络的中文分词模型的训练装置、设备及计算机可读存储介质,其作用与上述方法相对应。
-
-
-
-
-
-
-
-
-