基于最大熵模型的事件论元识别方法及系统

    公开(公告)号:CN104834718A

    公开(公告)日:2015-08-12

    申请号:CN201510236814.X

    申请日:2015-05-11

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于最大熵模型的事件论元识别方法,建立最大熵分类模型,其中,所述建立最大熵分类模型包括:获取事件的实体信息并根据所述实体信息确定事件论元候选项;获取所述事件论元候选项的特征信息;将所述特征信息按照最大熵模型格式进行融合,得到可用语料文本,其中,所述可用语料文本包括训练语料文本和测试语料文本;利用所述训练语料文本训练最大熵模型,得到最大熵分类模型;包括:利用所述最大熵分类模型对所述测试语料文本中的事件论元候选项进行识别,得到识别结果该方法可以充分的利用有效的特征,提高事件论元的识别效率及性能;本发明还提供一种基于最大熵模型的事件论元识别系统。

    一种两个不同平台下同一用户识别方法及系统

    公开(公告)号:CN104778388A

    公开(公告)日:2015-07-15

    申请号:CN201510221212.7

    申请日:2015-05-04

    Applicant: 苏州大学

    Abstract: 本申请提供了一种两个不同平台下同一用户识别方法,该方法包括:采集两个不同平台下的个人资料信息;对所述采集的个人资料信息进行标注;对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。能够有效的识别两个不同平台下的同一用户,且在训练样本数量有限的情况下,达到较高的准确率。

    一种事件触发词识别方法及系统

    公开(公告)号:CN104778163A

    公开(公告)日:2015-07-15

    申请号:CN201510236590.2

    申请日:2015-05-11

    Applicant: 苏州大学

    Abstract: 本发明公开了一种事件触发词识别方法,利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别,得到识别结果;其中,所述最大熵识别模型的获取包括:获取原始语料样本的词特征,词性特征,实体信息特征和依存关系特征;获取所述词特征,词性特征,实体信息特征和依存关系特征的特征向量,根据所述特征向量得到可用样本,将所述可用样本按照预定规则分为训练样本和测试样本;利用所述训练样本训练最大熵模型,得到最大熵识别模型;该方法能够有效的提高事件触发词的识别性能;本发明公开一种事件触发词识别系统。

    基于最大熵的主题分类器的训练方法及系统

    公开(公告)号:CN104778162A

    公开(公告)日:2015-07-15

    申请号:CN201510236385.6

    申请日:2015-05-11

    Applicant: 苏州大学

    Abstract: 本发明公开了一种基于最大熵的主题分类器的训练方法,包括:确定主题的个数N,选取预定数量的所确定各个主题的问题作为训练语料样本,其中,N为大于2的整数;对所述训练语料样本进行分词处理得到训练样本;利用所述训练样本通过最大熵分类算法对主题分类器进行训练;该方法能够精确的对主题进行分类;本发明还公开一种基于最大熵的主题分类器的训练系统。

    一种微博用户的用户类别确定方法及装置

    公开(公告)号:CN104598624A

    公开(公告)日:2015-05-06

    申请号:CN201510057100.2

    申请日:2015-02-04

    Applicant: 苏州大学

    Abstract: 本申请提供一种微博用户的用户类别确定方法及装置,通过获取待用户类别确定的微博用户的用户名;利用预先构建的最大熵分类器对该微博用户的用户名进行分类,得到分类结果(分类结果包括微博用户属于第一用户类别的第一后验概率,以及微博用户属于第二用户类别的第二后验概率);进而使得直接利用分类结果和预先设置的用户类别确定规则即可实现对该微博用户的用户类别的确定。

    一种事件分类方法及装置
    36.
    发明公开

    公开(公告)号:CN104462229A

    公开(公告)日:2015-03-25

    申请号:CN201410640920.X

    申请日:2014-11-13

    Applicant: 苏州大学

    CPC classification number: G06F16/353 G06F17/289

    Abstract: 本申请公开了一种事件分类方法及装置,对原始语料进行翻译获取翻译样本,将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;将所述双语样本作为训练样本,构建分类器;最后,利用所述分类器对待分类事件进行分类。基于上述方法和装置,使用翻译样本与单语特征的综合信息判断事件类型,可以在一定程度上避免数据稀疏的问题。

    一种情感词与评价对象的关系识别方法

    公开(公告)号:CN103631961A

    公开(公告)日:2014-03-12

    申请号:CN201310693087.0

    申请日:2013-12-17

    CPC classification number: G06F17/30616 G06F17/30705

    Abstract: 一种情感词与评价对象的关系识别方法,其主要步骤为:制作语料、训练条件随机场模型、抽取情感词和评价对象、构成情感词和评价对象候选组、训练最大熵分类器、测试最大熵分类器、实际应用。本发明能充分考虑情感词和评价对象的关系,使用了最大熵分类器并结合了多种特征去识别条件随机场模型抽取出的情感词和评价对象候选组是否有对应关系,获得了良好的识别效果。实验证明本发明提出的一种情感词与评价对象的关系识别方法可以取得较好的效果,适合应用到实际问题中。

    一种对话文本情感摘要的生成方法

    公开(公告)号:CN103617158A

    公开(公告)日:2014-03-05

    申请号:CN201310693047.6

    申请日:2013-12-17

    Abstract: 一种对话文本情感摘要的生成方法,包括构建对话文本中各个句子的包括单词特征和情感特征的特征向量,采用修订的余弦相似度算法计算向量间的相似度,再根据相似度计算句子间的转移概率,最后由PageRank算法计算各个句子的权值,最后根据权值进行排序,选择出符合预设数量且权值较大的句子组成对话文本的情感摘要。该方法不需要人工去生成摘要,节省了人力物力,同时,提高了生成对话文本情感摘要的精度。

    一种应用于移动设备的样本训练方法及装置

    公开(公告)号:CN103324610A

    公开(公告)日:2013-09-25

    申请号:CN201310230812.0

    申请日:2013-06-09

    Applicant: 苏州大学

    Abstract: 本发明中公开了一种应用于移动设备的样本训练方法及装置,所述方法应用于所述装置中,所述装置应用于移动设备中,提取预设样本中的全部特征值,按照预设规则将所述全部特征值进行分解,得到至少一个特征值子空间,对每个所述特征值子空间进行机器学习分类方法的训练,得到每个所述特征值子空间对应的基分类器,所述方法中,将提取出的预设样本中的全部特征值进行分解,得到至少一个特征值子空间,对于所述每个特征值子空间进行机器学习分类方法的训练,因此得到每个所述特征值子空间对应的基分类器,由于每个所述基分类器是由所述特征值子空间训练得到的,那么特征值数目明显要比全部特征值要小很多,因此,在样本训练中需要的内存空间也小很多。

    一种目标对象的目标数据的获取方法及装置

    公开(公告)号:CN103279549A

    公开(公告)日:2013-09-04

    申请号:CN201310224508.5

    申请日:2013-06-07

    Applicant: 苏州大学

    Abstract: 本发明公开了一种目标对象的目标数据的获取方法及装置,所述方法包括:获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未来公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。

Patent Agency Ranking