基于微博的情感词提取收集方法

    公开(公告)号:CN102279890A

    公开(公告)日:2011-12-14

    申请号:CN201110258876.2

    申请日:2011-09-02

    Applicant: 苏州大学

    Abstract: 本发明实施例公开了一种基于微博的情感词提取收集方法,其步骤包括:接收情绪图标,并获取与所述情绪图标相对应的情绪图标极性;利用所述情绪图标以及主题关键词搜索并收集微博语料;根据所述情绪图标极性对微博语料进行情感分类;对所述微博语料进行分词,并获取所述词的词性标注;使用特征提取方法从所述微博语料中提取情感词,并收集;本实施例提供的提取收集方法利于保障提取收集的情感词的规模和时效性,同时也大大提高了收集的情感词的正确率。

    一种中文分词方法、装置、电子设备及存储介质

    公开(公告)号:CN112380854B

    公开(公告)日:2024-03-01

    申请号:CN202011288208.X

    申请日:2020-11-17

    Applicant: 苏州大学

    Abstract: 本发明提供了一种中文分词方法、装置、电子设备及存储介质,包括步骤:获取待处理文本序列,待处理文本序列中包括多个依次排列的字符;提取待处理文本序列中每个字符对应的特征向量,得到一个特征向量组;将特征向量组中每个特征向量映射为一个二维向量,其中,二维向量包括第一维值和第二维值;通过第一维值和第二维值确定对应字符间隔是否为词边界。该方法将中文字词的多分类问题简化到词边界的两分类问题,即该字符间隔是词边界和不是词边界,这样系统在对待处理文本序列进行分词时,计算量将大大减少,所消耗的时间自然大大缩短,从而提高整个中文分词处理的工作效率。

    基于多任务网络的属性级情感分类方法及装置

    公开(公告)号:CN113297352B

    公开(公告)日:2024-01-16

    申请号:CN202110628590.2

    申请日:2021-06-07

    Applicant: 苏州大学

    Abstract: 本申请涉及一种基于多任务网络的属性级情感分类方法及装置,属于情感分析技术领域。该方法包括:获取情感分类样本语料并对语料进行预处理,得到处理后的样本语料;构建预设分类模型,所述预设分类模型包括属性级情感分类主任务网络、篇章级情感分类辅助任务网络、上下句情感连贯性判断辅助任务网络,所述主任务网络和辅助任务网络由共享的编码层和与编码层相连的各独立分类层构成;将所述处理后的样本语料输入所述预设分类模型并利用预设的损失函数进行训练,得到情感分类模型,所述情感分类模型用于对输入的待分类语料进行属性级情感分类。本申请有效地提高属性级情感分类的

    一种多类别情感分类方法、装置以及计算机存储介质

    公开(公告)号:CN114706986B

    公开(公告)日:2022-09-23

    申请号:CN202210621469.1

    申请日:2022-06-02

    Applicant: 苏州大学

    Abstract: 本发明公开了一种多类别情感分类方法、装置以及计算机存储介质,包括对样本数据集中的文本数据添加分类模板与回归模板,并在模板中标注标签描述词,得到提示训练样本,基于所述情感类别标签计算所述标签描述词的概率,得到所述提示训练样本的目标值;基于所述提示训练样本及所述目标值,采用二值交叉熵损失函数训练预训练模型,得到训练完成的情感分类检测模型;利用情感分类检测模型检测待检测文本数据,将回归预测值与分类预测概率利用权重距离融合,取最小权重距离对应的情感类别标签作为所述待检测文本数据的预测类别。实现了在训练数据量很少的情况下也可以完成快速学习,进一步提高了多类别情感分类任务的精度。

    基于否定前后缀信息的否定句识别方法

    公开(公告)号:CN115048924A

    公开(公告)日:2022-09-13

    申请号:CN202210976289.5

    申请日:2022-08-15

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于否定前后缀信息的否定句识别方法,本发明基于否定前后缀信息的否定句识别方法首先利用单词训练集训练辅助任务模型,用于获取带有否定前后缀的单词的信息;然后利用句子训练集训练主任务模型,用于否定句的识别,在主任务模型训练过程中,利用训练好的辅助任务模型得到句子中带有否定前后缀的单词的第一隐层特征表示,并将其插入至所在句子的第二隐层特征表示中更新整个句子的隐层特征表示,进行主任务模型的训练;最后利用训练好的主任务模型和辅助任务模型对目标句子进行识别。本发明将否定词识别建模为匹配模型,通过对句子中的带有否定前后缀的单词进行识别并更新句子的隐层特征表示,可以大幅提升否定句识别准确率。

    基于BERT的自适应分层输出的中文分词方法

    公开(公告)号:CN113095079A

    公开(公告)日:2021-07-09

    申请号:CN202110617100.9

    申请日:2021-06-03

    Applicant: 苏州大学

    Abstract: 本申请涉及一种基于BERT的自适应分层输出的中文分词方法,属于中文信息处理技术领域。该方法包括:对已标注的样本数据进行预处理,得到预处理后的文本序列和标签序列;将预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和预处理后的标签序列对网络模型进行监督训练,得到主干模型;冻结主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;根据预设的速度调节方法,使用蒸馏模型对输入数据生成中文分词结果。相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。

    一种基于微博的用户年龄分类方法及系统

    公开(公告)号:CN104809236B

    公开(公告)日:2018-03-27

    申请号:CN201510237163.6

    申请日:2015-05-11

    Applicant: 苏州大学

    Abstract: 本发明提供的一种基于微博的用户年龄分类方法及系统,包括:获取待测用户,待测用户为未提供年龄信息的微博用户;获取待测用户的微博文本;对待测用户的微博文本进行分词处理,得到待测文本词组,并按照预设规则对待测文本词组进行转换,得到待测特征向量;将待测特征向量作为预先建立的最大熵分类器的输入值,得到测试结果;利用测试结果确定待测用户的用户年龄类型。本申请通过获取待测用户的微博文本,对其进行相关处理后利用最大熵分类器获取测试结果,以根据该测试结果确定其用户年龄类型,由此,将待测用户自身所发表的微博文本作为依据,利用最大熵分类器进行测试,能够使得所确定的待测用户的用户年龄类型更加准确,且,能够实现通用性。

    一种文本情绪极性的识别方法及装置

    公开(公告)号:CN104536953B

    公开(公告)日:2017-12-26

    申请号:CN201510032757.3

    申请日:2015-01-22

    Applicant: 苏州大学

    Abstract: 本申请提供了一种文本情绪极性的识别方法及装置,该方法包括:利用预先构建的分类器,可以确定出待识别文本在不同情绪极性类别中的极性概率值,将最大极性概率值对应的情绪极性确定为待识别文本的情绪极性,从而确定出了待识别文本的情绪极性。并且,预先构建分类器时使用的训练集中包含的语料是从一种语言翻译后的另一种语言,实现了跨语言的训练集的构建,可以有效解决在某种语言场景中已标注语料不足无法构建训练集的问题。进一步地,训练集中还可以加入已确定出情绪极性的文本,扩展了训练集中已标注语料的数量,构建的分类器分类准确率更高。

    一种主客观分类器构建方法和系统

    公开(公告)号:CN104268134B

    公开(公告)日:2017-04-19

    申请号:CN201410508281.1

    申请日:2014-09-28

    Applicant: 苏州大学

    Abstract: 本发明公开的主客观分类器构建方法和系统,在着眼于对问题进行训练的同时,还着眼于对问题的答案进行训练,分别在问题和答案两类文本上构建基分类器,后续通过对两个基分类器进行融合,得到最终的主客观分类器。可见,本发明在主客观分类中加入了答案分类,通过结合答案特征对问题分类进行补正、校准,实现了基于问题与答案互补的主客观分类,规避了因问题训练样本的歧义性而导致分类器准确率低的弊端,提高了利用主客观分类器对问题进行分类的准确率,进而提升了问答系统的性能。

    一种篇章级情感分类方法及装置

    公开(公告)号:CN103473356B

    公开(公告)日:2017-01-25

    申请号:CN201310444957.0

    申请日:2013-09-26

    Applicant: 苏州大学

    Abstract: 本申请提供了一种篇章级情感分类方法,通过收集篇章级文本和已标注极性的句子级文本,确定已标注极性的句子级文本为已分类句子级文本,从篇章级文本中的子句中获取与已分类句子级文本极性相同的待分类子句,以对篇章级文本的极性进行标注。相比于直接对篇章级文本进行人工标注所需时间短,因此减少了人工的劳动时间,节约了人力,且缩短了训练过程的时间,提高了对待分类文本进行分类的效率。在本申请中得到篇章级基分类单元和句子级基分类单元两种分类单元,分别对待分类文本进行分类,并将分类后的结果进行相加,得到最终分类结果。由于使用了两种分类单元对待分类文本进行分类,提高了分类结果的准确率。

Patent Agency Ranking