-
公开(公告)号:CN103617158A
公开(公告)日:2014-03-05
申请号:CN201310693047.6
申请日:2013-12-17
Applicant: 苏州大学张家港工业技术研究院
Abstract: 一种对话文本情感摘要的生成方法,包括构建对话文本中各个句子的包括单词特征和情感特征的特征向量,采用修订的余弦相似度算法计算向量间的相似度,再根据相似度计算句子间的转移概率,最后由PageRank算法计算各个句子的权值,最后根据权值进行排序,选择出符合预设数量且权值较大的句子组成对话文本的情感摘要。该方法不需要人工去生成摘要,节省了人力物力,同时,提高了生成对话文本情感摘要的精度。
-
公开(公告)号:CN103631961B
公开(公告)日:2017-01-18
申请号:CN201310693087.0
申请日:2013-12-17
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/30
Abstract: 一种情感词与评价对象的关系识别方法,其主要步骤为:制作语料、训练条件随机场模型、抽取情感词和评价对象、构成情感词和评价对象候选组、训练最大熵分类器、测试最大熵分类器、实际应用。本发明能充分考虑情感词和评价对象的关系,使用了最大熵分类器并结合了多种特征去识别条件随机场模型抽取出的情感词和评价对象候选组是否有对应关系,获得了良好的识别效果。实验证明本发明提出的一种情感词与评价对象的关系识别方法可以取得较好的效果,适合应用到实际问题中。
-
公开(公告)号:CN105243095A
公开(公告)日:2016-01-13
申请号:CN201510577717.7
申请日:2015-09-11
Applicant: 苏州大学张家港工业技术研究院
CPC classification number: G06F16/951 , G06F17/2785
Abstract: 本发明提供一种基于微博文本的情绪分类方法及系统,所述方法包括以下步骤。收集一定数量微博用户发表的微博文本,并将收集到的微博文本进行情绪类型标注。利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本,并利用所述训练样本及贝叶斯工具包构建贝叶斯分类器。利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。如此,以较高的准确率达到了对微博文本进行情绪分类。
-
公开(公告)号:CN105183807A
公开(公告)日:2015-12-23
申请号:CN201510530866.8
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院
CPC classification number: G06F16/951 , G06F17/271 , G06K9/6297
Abstract: 本发明公开了一种基于结构句法的情绪原因事件识别方法及系统,包括:获取预设量的训练文本,所述训练文本为已提供其情绪原因事件的文本;将所述训练文本进行分词处理,得到分别与每个所述训练文本对应的训练词组;确定所述训练词组中每个词语的结构句法特征;利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训练CRF模型;利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件。本发明实施例提供的一种基于结构句法的情绪原因事件识别方法及系统获取待测文本的情绪原因事件的准确率较高,即对于情绪原因事件的识别性能较好。
-
公开(公告)号:CN105045924A
公开(公告)日:2015-11-11
申请号:CN201510531001.3
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/30
CPC classification number: G06F16/353
Abstract: 本发明公开了一种问题分类方法及系统,包括:获取第一预设量的第一训练文本和第二预设量的第二训练文本,第一训练文本已提供问题类型,第二训练文本未提供问题类型;利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型;确定第一训练文本和第二训练文本为训练文本,将训练文本进行分词处理,得到分别与每个训练文本对应的训练词组;利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器;利用最大熵分类器对待测词组进行分类,得到与待测词组对应的待测文本的问题类型。由此,不需确定大量训练文本的问题类型,无需耗费大量人力,且对待测词组进行分类得到的结果准确率较高。
-
公开(公告)号:CN105138520B
公开(公告)日:2018-08-17
申请号:CN201510530965.6
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院 , 苏州大学
Abstract: 本发明公开了一种事件触发词识别方法及装置,该方法包括:将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料;根据所述原始语料以及所述翻译语料,确定当前候选词的双语特征,所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征;通过所述双语特征,使用预先建立的二元分类器对所述当前候选词进行分类,以确定所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对多个具有双语特征的训练样本进行训练得到的。本发明所提供的事件触发词识别方法及装置,同时从事件的原始以及翻译语料入手,使用二者的综合信息去识别事件的触发词,可以避免语料的稀疏问题,有利于提高系统的识别性能。
-
公开(公告)号:CN105205043A
公开(公告)日:2015-12-30
申请号:CN201510530778.8
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/27
Abstract: 本发明公开了一种新闻读者情绪的分类方法与系统,从目标语料中获取新闻文本和评论文本,及其词特征信息,将词特征信息进行融合并转换为最大熵模型对应格式的可用语料;将可用语料按预设规则分为训练语料与测试语料,并将训练语料分为已标注样本与未标注样本;将已标注样本进行训练得到最大熵模型,利用所述最大熵模型对未标注样本进行情绪类别的分类,得到未标注样本对应各情绪类别的后验概率,将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注,成为新的已标注样本,并更新当前的已标注样本与未标注样本;循环上步直至全部的未标注样本均进行过标注。可以在标注语料规模较小时高效地对新闻读者情绪进行分类。
-
公开(公告)号:CN105183806A
公开(公告)日:2015-12-23
申请号:CN201510530598.X
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院
CPC classification number: G06F16/951 , G06F17/2705 , G06K9/6269 , G06Q50/01
Abstract: 本发明公开了一种不同平台间识别同一用户的方法与系统,收集两不同平台中用户发表的文本信息,将所述文本信息中的一部分进行标注,并将已标注文本信息作为已标注样本,将未标注文本信息作为待测样本,利用LDA模型对已标注样本与待测样本分别抽取主题特征,对抽取的主题特征分别进行余弦相似度计算,并将得到的相似度值分别作为训练样本与测试样本;利用预设算法对所述训练样本进行训练得到分类器模型,利用分类器模型对所述测试样本进行分类,确定所述两不同平台下的测试样本对应的用户是否为同一用户,能够有效地通过用户发表的文本识别两个不同平台下的用户是否同一用户,且在训练样本数量有限的情况下,达到较高的准确率。
-
公开(公告)号:CN105138520A
公开(公告)日:2015-12-09
申请号:CN201510530965.6
申请日:2015-08-26
Applicant: 苏州大学张家港工业技术研究院
Abstract: 本发明公开了一种事件触发词识别方法及装置,该方法包括:将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料;根据所述原始语料以及所述翻译语料,确定当前候选词的双语特征,所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征;通过所述双语特征,使用预先建立的二元分类器对所述当前候选词进行分类,以确定所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对多个具有双语特征的训练样本进行训练得到的。本发明所提供的事件触发词识别方法及装置,同时从事件的原始以及翻译语料入手,使用二者的综合信息去识别事件的触发词,可以避免语料的稀疏问题,有利于提高系统的识别性能。
-
-
-
-
-
-
-
-