-
公开(公告)号:CN104834718A
公开(公告)日:2015-08-12
申请号:CN201510236814.X
申请日:2015-05-11
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于最大熵模型的事件论元识别方法,建立最大熵分类模型,其中,所述建立最大熵分类模型包括:获取事件的实体信息并根据所述实体信息确定事件论元候选项;获取所述事件论元候选项的特征信息;将所述特征信息按照最大熵模型格式进行融合,得到可用语料文本,其中,所述可用语料文本包括训练语料文本和测试语料文本;利用所述训练语料文本训练最大熵模型,得到最大熵分类模型;包括:利用所述最大熵分类模型对所述测试语料文本中的事件论元候选项进行识别,得到识别结果该方法可以充分的利用有效的特征,提高事件论元的识别效率及性能;本发明还提供一种基于最大熵模型的事件论元识别系统。
-
公开(公告)号:CN104778388A
公开(公告)日:2015-07-15
申请号:CN201510221212.7
申请日:2015-05-04
Applicant: 苏州大学
Abstract: 本申请提供了一种两个不同平台下同一用户识别方法,该方法包括:采集两个不同平台下的个人资料信息;对所述采集的个人资料信息进行标注;对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。能够有效的识别两个不同平台下的同一用户,且在训练样本数量有限的情况下,达到较高的准确率。
-
公开(公告)号:CN104778163A
公开(公告)日:2015-07-15
申请号:CN201510236590.2
申请日:2015-05-11
Applicant: 苏州大学
Abstract: 本发明公开了一种事件触发词识别方法,利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别,得到识别结果;其中,所述最大熵识别模型的获取包括:获取原始语料样本的词特征,词性特征,实体信息特征和依存关系特征;获取所述词特征,词性特征,实体信息特征和依存关系特征的特征向量,根据所述特征向量得到可用样本,将所述可用样本按照预定规则分为训练样本和测试样本;利用所述训练样本训练最大熵模型,得到最大熵识别模型;该方法能够有效的提高事件触发词的识别性能;本发明公开一种事件触发词识别系统。
-
公开(公告)号:CN104778162A
公开(公告)日:2015-07-15
申请号:CN201510236385.6
申请日:2015-05-11
Applicant: 苏州大学
Abstract: 本发明公开了一种基于最大熵的主题分类器的训练方法,包括:确定主题的个数N,选取预定数量的所确定各个主题的问题作为训练语料样本,其中,N为大于2的整数;对所述训练语料样本进行分词处理得到训练样本;利用所述训练样本通过最大熵分类算法对主题分类器进行训练;该方法能够精确的对主题进行分类;本发明还公开一种基于最大熵的主题分类器的训练系统。
-
-
公开(公告)号:CN104462229A
公开(公告)日:2015-03-25
申请号:CN201410640920.X
申请日:2014-11-13
Applicant: 苏州大学
CPC classification number: G06F16/353 , G06F17/289
Abstract: 本申请公开了一种事件分类方法及装置,对原始语料进行翻译获取翻译样本,将所述翻译样本的词特征与单语特征相加获得双语样本;所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征;将所述双语样本作为训练样本,构建分类器;最后,利用所述分类器对待分类事件进行分类。基于上述方法和装置,使用翻译样本与单语特征的综合信息判断事件类型,可以在一定程度上避免数据稀疏的问题。
-
公开(公告)号:CN103150405B
公开(公告)日:2014-12-10
申请号:CN201310108506.X
申请日:2013-03-29
Applicant: 苏州大学
Abstract: 本申请提供一种分类模型建模方法、中文跨文本指代消解方法和系统。其中一种分类模型建模方法,包括:获取训练文本集;从训练文本集中选取实体表述对;获取每个实体表述对的特征项;选取正训练实例和负训练实例,将每个正训练实例和每个负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。对于待识别文本集中的实体表述对,在提取特征项后,可以使用分类模型判断是否具有指代关系,然后合并具有指代关系的实体表述对,构成跨文本指代链,从而达到跨文本指代消解的目的。由于上述方案获取的语义特征可以充分利用各种外部语义资源,挖掘实体表述对所具有的实际含义,从而提高分类模型及跨文本指代消解系统的准确度。
-
公开(公告)号:CN104182535A
公开(公告)日:2014-12-03
申请号:CN201410436852.5
申请日:2014-08-29
Applicant: 苏州大学
CPC classification number: G06F17/30979 , G06F17/2785
Abstract: 本发明公开了一种人物关系抽取方法和装置,该方法包括:确定待抽取的人物关系的基本模式,对人物关系的基本模式进行人称代词的泛化得到泛化模式;在语料库中匹配满足泛化模式的人物关系;在指代消解范围内确定泛化模式中的人称代词所指向的第一人名;抽取该第一人名及对应的泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。通过采用上述泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,使得在面对海量文本资源时,不仅限于基本模式的人物关系的抽取,满足泛化模式的人物关系也可以被抽取出来,大大提高了人物关系的抽取效率。
-
公开(公告)号:CN103324610A
公开(公告)日:2013-09-25
申请号:CN201310230812.0
申请日:2013-06-09
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明中公开了一种应用于移动设备的样本训练方法及装置,所述方法应用于所述装置中,所述装置应用于移动设备中,提取预设样本中的全部特征值,按照预设规则将所述全部特征值进行分解,得到至少一个特征值子空间,对每个所述特征值子空间进行机器学习分类方法的训练,得到每个所述特征值子空间对应的基分类器,所述方法中,将提取出的预设样本中的全部特征值进行分解,得到至少一个特征值子空间,对于所述每个特征值子空间进行机器学习分类方法的训练,因此得到每个所述特征值子空间对应的基分类器,由于每个所述基分类器是由所述特征值子空间训练得到的,那么特征值数目明显要比全部特征值要小很多,因此,在样本训练中需要的内存空间也小很多。
-
公开(公告)号:CN103279549A
公开(公告)日:2013-09-04
申请号:CN201310224508.5
申请日:2013-06-07
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明公开了一种目标对象的目标数据的获取方法及装置,所述方法包括:获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未来公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。
-
-
-
-
-
-
-
-
-