-
公开(公告)号:CN104778283A
公开(公告)日:2015-07-15
申请号:CN201510236383.7
申请日:2015-05-11
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明提供的一种基于微博的用户职业分类方法和系统,包括:获取预设数量的第一用户,第一用户为已经提供职业信息的微博用户;获取每个第一用户的职业信息和微博文本;依据第一用户的职业信息对第一用户进行分类,利用分类后得到的结果确定每个第一用户的职业类型;将每个第一用户的微博文本分别进行分词处理,得到第一文本词组;利用第一文本词组构成分别与每个第一用户的微博文本对应的第一特征向量,并利用第一用户的职业类型及第一特征向量构建最大熵分类器;利用最大熵分类器对第二特征向量进行处理,得到与第二特征向量对应的微博文本所属的第二用户的职业类型。由此,能够准确获知未知职业信息的微博用户的职业类型。
-
公开(公告)号:CN104598648A
公开(公告)日:2015-05-06
申请号:CN201510087855.7
申请日:2015-02-26
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/30654 , G06F17/30684 , G06F17/30705
Abstract: 本方案公开了一种微博用户交互式性别识别方法及装置。该方法首先获取微博用户的个人资料信息和用户之间的交互微博文本,并利用交互用户个人资料中的性别信息对交互文本的交互式性别类别进行标注;然后利用标注好的用户之间的交互文本作为训练样本,并利用训练样本训练最大熵分类器;最后,对某测试交互用户集进行分类。综合来看,本发明可以利用交互文本对微博中的两个交互用户的交互式性别进行识别,且在训练样本数量有限的情况下,达到较高的准确率。
-
公开(公告)号:CN104537118A
公开(公告)日:2015-04-22
申请号:CN201510036778.2
申请日:2015-01-26
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/30861
Abstract: 本申请提供了一种微博数据处理方法、装置及系统,所述方法中使用最大熵分类器计算每个待分类特征值在待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;然后得到待分类正预测条件概率和待分类负预测条件概率;在比较结果为待分类正预测条件概率最大的情况下,确定待测样本的类别为正;在比较结果为待分类负预测条件概率最大的情况下,确定待测样本的类别为负,实现了对待测样本类别的预测。在预测出待测样本的类别为正时,确定出待测样本对应的两个账号属于同一用户,在预测出待测样本的类别为负时,确定出待测样本对应的两个账号不属于同一用户,从而实现了对不同微博网站下的同一用户的识别。
-
公开(公告)号:CN102682124B
公开(公告)日:2014-07-09
申请号:CN201210151571.6
申请日:2012-05-16
Applicant: 苏州大学
Abstract: 本发明公开了一种文本的情感分类方法及装置,所述方法经过对相关领域情感语料的分析处理,构建了一个多类分类器,再利用多类分类器将待分类文本分为多种评价对象类别的句子,利用不同评价对象的句子集合分别构建一个基情感分类器,以判断评价对象类别句子的情感倾向,最后融合不同评价对象类别中表示相同情感等级的后验概率,选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。通过本发明实施例公开的文本的情感分类方法及装置,将评价对象归为固定的几个类别,分别分析每一个评价对象类别的句子的情感倾向,再将不同评价对象类别的情感倾向融合,根据融合结果判断待分类文本的情感类别;这种方法大大提高了文本情感分类的准确率。
-
公开(公告)号:CN103617245A
公开(公告)日:2014-03-05
申请号:CN201310616753.0
申请日:2013-11-27
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/30707
Abstract: 本申请提供了一种双语情感分类方法及装置,方法包括:翻译待分类的源语言文档和训练样本集的源语言文档,得到待分类的翻译文档和训练样本集的翻译文档;组合待分类的源语言文档和待分类的翻译文档,得到待分类的双语文档,组合训练样本集的源语言文档和训练样本集的翻译文档,得到训练样本集的双语文档;构建待分类的双语特征向量空间和训练样本集的双语特征向量空间;利用最大熵模型在样本集的双语特征向量空间上训练分类器;通过训练后的分类器对待分类的双语特征向量空间进行情感极性分类。本申请结合两种语言特征,为情感分类提供了额外的分类信息,提高了分类正确率,从双语特征向量空间中提取较为重要的特征项,提高了分类效率。
-
公开(公告)号:CN103514279A
公开(公告)日:2014-01-15
申请号:CN201310445953.4
申请日:2013-09-26
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/3071
Abstract: 本申请提供了一种句子级情感分类方法,包括:获取预设句子级情感分类单元;利用预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类;其中,预设句子级情感分类器的获取过程,包括:分别获取标记为正、负和客观的篇章级文本;对拆分篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;利用正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。因此,本申请相比于采用人工标注的方式对句子级文本进行分类,提高了工作效率,且由于不需要再使用人工来标注,因此不需要支付人工费,降低了成本。
-
公开(公告)号:CN103473356A
公开(公告)日:2013-12-25
申请号:CN201310444957.0
申请日:2013-09-26
Applicant: 苏州大学
Abstract: 本申请提供了一种篇章级情感分类方法,通过收集篇章级文本和已标注极性的句子级文本,确定已标注极性的句子级文本为已分类句子级文本,从篇章级文本中的子句中获取与已分类句子级文本极性相同的待分类子句,以对篇章级文本的极性进行标注。相比于直接对篇章级文本进行人工标注所需时间短,因此减少了人工的劳动时间,节约了人力,且缩短了训练过程的时间,提高了对待分类文本进行分类的效率。在本申请中得到篇章级基分类单元和句子级基分类单元两种分类单元,分别对待分类文本进行分类,并将分类后的结果进行相加,得到最终分类结果。由于使用了两种分类单元对待分类文本进行分类,提高了分类结果的准确率。
-
公开(公告)号:CN103324758A
公开(公告)日:2013-09-25
申请号:CN201310288756.6
申请日:2013-07-10
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本申请提供一种新闻分类方法和系统。其中,一种新闻分类方法包括:使用预先构建的每个基分类器对待分类新闻进行分类,得到每个基分类器的分类结果;依据每个基分类器的分类结果,分别对待分类新闻进行情绪判定,得到判定结果;使用判定结果,得到待分类新闻含有的所有情绪类别。由于情绪判定是指判定待分类新闻是否含有用户看到待分类新闻时产生的情绪,判定结果表明所述待分类新闻含有的情绪,所以使用判定结果,即可以得到所述待分类新闻含有的所有情绪类别,并将待分类新闻划分到其含有的所有情绪类别对应的新闻中,实现依据情绪对新闻划分。进一步依据不同情绪推荐新闻,使推荐给用户的新闻更能满足用户当前的需求。
-
公开(公告)号:CN102663139A
公开(公告)日:2012-09-12
申请号:CN201210138364.7
申请日:2012-05-07
Applicant: 苏州大学
Abstract: 本发明涉及自然语言处理领域,公开了一种情感词典构建方法及系统。本方案公开的情感词典构建方法及系统,基于同义词词林,通过对同义词词林的检索,只需预先设定的少量种子词,就能获取大量情感词,从而获得扩展的种子词词集,并根据评价语料内的词语和种子词的PMI值及其所述词语的词性,计算所述词语的情感倾向值SO,并根据所述SO值的正负和绝对值大小,获知所述词语的情感极性及情感倾向程度,进而根据预设的数量,选择所述词语构建情感字典。使用该种方法及系统,不需要人工去寻找并确定情感词,节省了人力物力,同时,通过计算PMI值及SO值的方法,选择情感倾向程度较强的词语来构建情感词典,提高了构建情感词典的精度。
-
公开(公告)号:CN102323944A
公开(公告)日:2012-01-18
申请号:CN201110258712.X
申请日:2011-09-02
Applicant: 苏州大学
Abstract: 本发明实施例公开了一种基于极性转移规则的情感分类方法,其步骤包括:在待分类文本中找出情感词,并获取与所述情感词相对应的情感词极性;使用两个或两个以上的极性转移规则判断所述情感词是否发生极性转移;所述极性转移规则包括:基于否定结构的极性转移规则,或基于转折结构的极性转移规则,或基于语态结构的极性转移规则,或基于隐含结构的极性转移规则;根据获取的所述情感词极性及极性转移判断结果,计算出待分类文本的情感极性;根据待分类文本的情感极性对待分类文本进行分类。本发明方法避免了发生极性转移的情感词对文本分类结果带来的不利影响,有利于提高文本的分类效果。
-
-
-
-
-
-
-
-
-