-
公开(公告)号:CN113297352A
公开(公告)日:2021-08-24
申请号:CN202110628590.2
申请日:2021-06-07
Applicant: 苏州大学
Abstract: 本申请涉及一种基于多任务网络的属性级情感分类方法及装置,属于情感分析技术领域。该方法包括:获取情感分类样本语料并对语料进行预处理,得到处理后的样本语料;构建预设分类模型,所述预设分类模型包括属性级情感分类主任务网络、篇章级情感分类辅助任务网络、上下句情感连贯性判断辅助任务网络,所述主任务网络和辅助任务网络由共享的编码层和与编码层相连的各独立分类层构成;将所述处理后的样本语料输入所述预设分类模型并利用预设的损失函数进行训练,得到情感分类模型,所述情感分类模型用于对输入的待分类语料进行属性级情感分类。本申请有效地提高属性级情感分类的性能。
-
公开(公告)号:CN112380854A
公开(公告)日:2021-02-19
申请号:CN202011288208.X
申请日:2020-11-17
Applicant: 苏州大学
IPC: G06F40/284
Abstract: 本发明提供了一种中文分词方法、装置、电子设备及存储介质,包括步骤:获取待处理文本序列,待处理文本序列中包括多个依次排列的字符;提取待处理文本序列中每个字符对应的特征向量,得到一个特征向量组;将特征向量组中每个特征向量映射为一个二维向量,其中,二维向量包括第一维值和第二维值;通过第一维值和第二维值确定对应字符间隔是否为词边界。该方法将中文字词的多分类问题简化到词边界的两分类问题,即该字符间隔是词边界和不是词边界,这样系统在对待处理文本序列进行分词时,计算量将大大减少,所消耗的时间自然大大缩短,从而提高整个中文分词处理的工作效率。
-
公开(公告)号:CN104317890B
公开(公告)日:2018-05-01
申请号:CN201410572086.5
申请日:2014-10-23
Applicant: 苏州大学
Abstract: 本申请提供的文本连接词的识别方法及装置,在获取的待识别文本中,提取待识别的连接词,利用预先构建的分类器对该识别连接词进行识别,获得识别结果,进而利用识别结果确定待识别连接词的属性,该属性为连接词或非连接词。在本实施例中,首先在待识别文本中获得连接词,该连接词为初步识别的连接词,再利用利用已标注的连接词样本作为训练集构建的分类器进一步确定,从而准确识别出待识别文本中的连接词。
-
公开(公告)号:CN104537118B
公开(公告)日:2017-12-26
申请号:CN201510036778.2
申请日:2015-01-26
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本申请提供了一种微博数据处理方法、装置及系统,所述方法中使用最大熵分类器计算每个待分类特征值在待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;然后得到待分类正预测条件概率和待分类负预测条件概率;在比较结果为待分类正预测条件概率最大的情况下,确定待测样本的类别为正;在比较结果为待分类负预测条件概率最大的情况下,确定待测样本的类别为负,实现了对待测样本类别的预测。在预测出待测样本的类别为正时,确定出待测样本对应的两个账号属于同一用户,在预测出待测样本的类别为负时,确定出待测样本对应的两个账号不属于同一用户,从而实现了对不同微博网站下的同一用户的识别。
-
公开(公告)号:CN107025250A
公开(公告)日:2017-08-08
申请号:CN201610221352.9
申请日:2016-04-11
Applicant: 苏州大学
CPC classification number: G06F17/30705 , G06F17/2775 , G06Q50/01
Abstract: 本申请提供了一种互联网用户数据处理方法、装置及系统,互联网用户数据处理方法使用最大熵分类器计算每个词特征对应的待分类正预测子条件概率和待分类负预测子条件概率;计算得到待分类正预测条件概率,及计算得到待分类负预测条件概率;在待分类正预测条件概率最大的情况下,确定待测样本的类别为正;在待分类负预测条件概率最大的情况下,确定待测样本的类别为负,实现了使用最大熵分类器对待测样本类别的预测。在预测出待测样本的类别为正时,确定出待测样本的发言者的婚姻类型为已婚,在预测出待测样本的类别为负时,确定出待测样本的发言者的婚姻类型为未婚,从而实现了对互联网用户的婚姻类型的识别。
-
公开(公告)号:CN103345525B
公开(公告)日:2016-08-24
申请号:CN201310308226.3
申请日:2013-07-22
Applicant: 苏州大学
Abstract: 本发明涉及自然语言处理及模式识别技术领域,公开了一种文本分类方法、装置及处理器。该方法中,首先根据分类器获取情感测试样本和情绪测试样本分别属于各个情感类别和各个情绪类别的初始概率,继而选取情感测试样本和情绪测试样本作为共同样本,并获取所述共同样本的联合概率,将所述联合概率和初始概率进行加权求和,并根据求和的结果获取待分类文本所属的情感类别,和/或情绪类别。这个过程中,将待分类文本的情感和情绪进行联合,以实现对文本的情感分类,和/或情绪分类。由于同一文本的情感和情绪之间有着密切的联系,在将待分类文本的情感和情绪联合,以对待分类文本进行分类时,能有效提高文本分类的精度。
-
公开(公告)号:CN103279549B
公开(公告)日:2016-05-25
申请号:CN201310224508.5
申请日:2013-06-07
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本申请公开了一种目标对象的目标数据的获取方法及装置,所述方法包括:获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未来公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。
-
公开(公告)号:CN105243094A
公开(公告)日:2016-01-13
申请号:CN201510577403.7
申请日:2015-09-11
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/30
CPC classification number: G06F16/353
Abstract: 本发明提供一种基于微博文本和个人信息的用户职业分类方法及系统,所述方法包括以下步骤。收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本。根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。如此,有效提高微博用户职业分类的准确率。
-
公开(公告)号:CN105022845A
公开(公告)日:2015-11-04
申请号:CN201510530700.6
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/30
CPC classification number: G06F17/30707
Abstract: 本发明公开了一种基于特征子空间的新闻分类方法及系统,该方法包括:将已标注样本的整个特征空间划分为若干个不相交的特征子空间,并对若干个不相交的特征子空间中各个特征子空间进行训练,得到与各个特征子空间对应的子分类器;利用训练得到的子分类器对未标注样本进行分类,得到未标注样本的情绪倾向类别,并将已知情绪倾向类别的未标注样本更新至标注样本集中;利用标注样本集构建情绪倾向分类器,并利用构建的情绪倾向分类器对待分类新闻的情绪倾向类别进行分类,得到待分类新闻的情绪倾向类别。当获知待分类新闻的情绪倾向类别后,可以将待分类新闻划分到其含有的情绪倾向类别对应的新闻中,从而提高了用户浏览新闻时的体验度。
-
公开(公告)号:CN105005560A
公开(公告)日:2015-10-28
申请号:CN201510530734.5
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/27
Abstract: 本发明公开了一种基于最大熵模型的评价类型情绪分类方法及系统,该方法包括:获取原始评价语料,并从原始评价语料中提取特征信息集;将特征信息集中各类特征进行融合,处理得到可用语料;可用语料的语料格式与最大熵模型相匹配;将可用语料划分为训练语料和测试语料,利用训练语料训练最大熵模型,得到情绪分类模型;将测试语料输入情绪分类模型,对测试语料中评价类型的情绪进行分类,得到情绪分类结果。以上本发明提供的技术方案中,使用最大熵模型,能够充分利用了上下文信息,建立一个统一的概率模型,提高了评价类型情绪分类的性能。
-
-
-
-
-
-
-
-
-