-
公开(公告)号:CN104268214B
公开(公告)日:2018-01-19
申请号:CN201410494539.7
申请日:2014-09-24
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明提供一种基于微博用户关系的用户性别识别方法及系统,本发明方法包括以下步骤。S1、根据微博网站提供的API接口,收集微博用户的用户信息,并对不同用户进行分类。S2、根据已分类用户的userid获取其关注者和粉丝两者的userid,并将所述关注者和粉丝两者的userid整理成文本。S3、使用信息增益对训练样本进行特征提取,并使用最大熵分类器将待分类样本进行分类。本发明相比使用微博文本,具有更好的微博用户性别分类效果。
-
公开(公告)号:CN104809105B
公开(公告)日:2017-12-26
申请号:CN201510236815.4
申请日:2015-05-11
Applicant: 苏州大学
Abstract: 本发明公开基于最大熵的事件论元及论元角色的识别方法,提取事件的实体信息以确定事件论元候选项并提取事件的论元信息;提取事件论元候选项的特征信息,并利用特征信息及论元信息进行数据处理得到论元识别语料和论元角色识别语料;利用论元识别语料训练最大熵二元分类模型得到最大熵二元分类模型;利用论元角色识别语料训练最大熵多元分类模型得到最大熵多元分类模型;利用最大熵二元分类模型对事件中的事件论元候选项进行识别,得到论元识别结果;利用最大熵多元分类模型对论元识别结果进行识别,得到论元角色识别结果;该方法提高事件论元及论元角色识别效率;还公开基于最大熵的事件论元及论元角色的识别系统。
-
公开(公告)号:CN106339718A
公开(公告)日:2017-01-18
申请号:CN201610685799.1
申请日:2016-08-18
Applicant: 苏州大学
CPC classification number: G06K9/6271 , G06K9/6256 , G06N3/08
Abstract: 本申请公开一种基于神经网络的分类方法及装置,所述方法和装置通过对训练样本进行分布式语义表示处理,得到训练样本的分布式语义表示;并基于卷积神经网络分类方式,学习分布式语义表示形式的所述训练样本的样本特征,最终实现了根据样本特征的学习结果构建分类器,使得后续可利用该分类器对待测样本进行分类。由此可知,本申请实现了一种基于神经网络的分类方案,相比于传统的最大熵分类、支持向量机的分类等线性分类方式,基于神经网络的分类方法可以更为有效地学习训练样本的样本特征,从而可带来较高的分类性能。
-
公开(公告)号:CN106202181A
公开(公告)日:2016-12-07
申请号:CN201610480926.4
申请日:2016-06-27
Applicant: 苏州大学
Abstract: 本申请实施例提供一种情感分类方法、装置及系统,通过对待测样本(其中,待测样本为网络平台信息中的位于第一预设时间之后的评论文本)进行分词处理,得到多个词特征;并使用预先设置的最大熵情感分类器,分别计算每个词特征的第一预测子概率和第二预测子概率;进而利用每个特征词第一预测子概率和第二预测子概率确定待测样本的情感类别的方式,实现了对网络平台信息中的评论文本的情感分类,可便于用户对网络平台信息的选取。
-
公开(公告)号:CN103514279B
公开(公告)日:2016-10-05
申请号:CN201310445953.4
申请日:2013-09-26
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本申请提供了一种句子级情感分类方法,包括:获取预设句子级情感分类单元;利用预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类;其中,预设句子级情感分类器的获取过程,包括:分别获取标记为正、负和客观的篇章级文本;对拆分篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;利用正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。因此,本申请相比于采用人工标注的方式对句子级文本进行分类,提高了工作效率,且由于不需要再使用人工来标注,因此不需要支付人工费,降低了成本。
-
公开(公告)号:CN105930411A
公开(公告)日:2016-09-07
申请号:CN201610239552.7
申请日:2016-04-18
Applicant: 苏州大学
CPC classification number: G06F16/9574 , G06F16/355 , G06K9/6268
Abstract: 本申请提供一种分类器训练方法、分类器和情感分类系统,上述方法包括:获取主题集合中至少一个主题的已标注的评论文本,作为训练样本;获取主题集合中至少一个主题的未标注的评论文本,作为未标注样本;采用标签传播算法预测所述未标注样本;采用预测后的所述未标注样本和所述训练样本训练分类器。本方案除了通过利用已经标注过的评论文本对分类器进行训练之外,还利用未标注的评论文本对所述分类器进行训练,并且采用所述未标注的评论文本对所述分类器进行训练后,显著提高了所述分类器的分类精度。在不明显提高用户工作量的基础上,有效的提高了分类器的精准度。
-
公开(公告)号:CN105205043A
公开(公告)日:2015-12-30
申请号:CN201510530778.8
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/27
Abstract: 本发明公开了一种新闻读者情绪的分类方法与系统,从目标语料中获取新闻文本和评论文本,及其词特征信息,将词特征信息进行融合并转换为最大熵模型对应格式的可用语料;将可用语料按预设规则分为训练语料与测试语料,并将训练语料分为已标注样本与未标注样本;将已标注样本进行训练得到最大熵模型,利用所述最大熵模型对未标注样本进行情绪类别的分类,得到未标注样本对应各情绪类别的后验概率,将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注,成为新的已标注样本,并更新当前的已标注样本与未标注样本;循环上步直至全部的未标注样本均进行过标注。可以在标注语料规模较小时高效地对新闻读者情绪进行分类。
-
公开(公告)号:CN105183806A
公开(公告)日:2015-12-23
申请号:CN201510530598.X
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院
CPC classification number: G06F16/951 , G06F17/2705 , G06K9/6269 , G06Q50/01
Abstract: 本发明公开了一种不同平台间识别同一用户的方法与系统,收集两不同平台中用户发表的文本信息,将所述文本信息中的一部分进行标注,并将已标注文本信息作为已标注样本,将未标注文本信息作为待测样本,利用LDA模型对已标注样本与待测样本分别抽取主题特征,对抽取的主题特征分别进行余弦相似度计算,并将得到的相似度值分别作为训练样本与测试样本;利用预设算法对所述训练样本进行训练得到分类器模型,利用分类器模型对所述测试样本进行分类,确定所述两不同平台下的测试样本对应的用户是否为同一用户,能够有效地通过用户发表的文本识别两个不同平台下的用户是否同一用户,且在训练样本数量有限的情况下,达到较高的准确率。
-
公开(公告)号:CN105138520A
公开(公告)日:2015-12-09
申请号:CN201510530965.6
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院
Abstract: 本发明公开了一种事件触发词识别方法及装置,该方法包括:将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料;根据所述原始语料以及所述翻译语料,确定当前候选词的双语特征,所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征;通过所述双语特征,使用预先建立的二元分类器对所述当前候选词进行分类,以确定所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对多个具有双语特征的训练样本进行训练得到的。本发明所提供的事件触发词识别方法及装置,同时从事件的原始以及翻译语料入手,使用二者的综合信息去识别事件的触发词,可以避免语料的稀疏问题,有利于提高系统的识别性能。
-
公开(公告)号:CN104794500A
公开(公告)日:2015-07-22
申请号:CN201510236589.X
申请日:2015-05-11
Applicant: 苏州大学
IPC: G06K9/62
CPC classification number: G06K9/6278
Abstract: 本发明提供了一种tri-training半监督学习方法及装置,包括:分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器;分别采用第一基分类器、第二基分类器和第三基分类器获取与之相对应的第二待标注样本的类别标签;当第一基分类器、第二基分类器和第三基分类器中的至少两个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注样本最终标注的类别标签;将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器,有效的降低了对第二待标注样本的误标注率,提高了标注集的质量,进而获得了更好的半监督学习的效果。
-
-
-
-
-
-
-
-
-