一种应用于评论语料的情感信息压缩方法及系统

    公开(公告)号:CN104199980A

    公开(公告)日:2014-12-10

    申请号:CN201410494394.0

    申请日:2014-09-24

    Applicant: 苏州大学

    CPC classification number: G06F17/30705 G06F17/2705 G06F17/30731

    Abstract: 本发明提供一种应用于评论语料的情感信息压缩方法及系统。上述方法包括以下步骤。S1、将待用数据分为K份,并取其中1份作为测试样本,其余K-1份作为训练样本。S2、使用机器学习方法训练分类器对所述测试样本进行分类,并将分类结果的最大后验概率作为每个样本的情感代表性分数。S3、将所有样本根据情感代表性分值从大到小排序,并根据压缩规模N,抽取排在前面的N个样本作为压缩样本集。本发明能够有效的压缩评论语料,并最大程度上保存原语料的情感分类信息,达到了在小存储容量的移动设备上实现情感分类任务的目的。

    事件信息融合方法和系统
    12.
    发明授权

    公开(公告)号:CN102298635B

    公开(公告)日:2013-09-04

    申请号:CN201110269307.8

    申请日:2011-09-13

    Applicant: 苏州大学

    Abstract: 本发明公开了一种事件信息融合方法和系统,用于对事件信息进行抽取、补全、事件聚类和融合,形成事件信息完整度高的完备事件。本发明实施例方法包括:生成包括多个事件的初选事件集合;比较初选事件集中的事件与事件抽取模式的相似度,形成候选事件集合;甄别和标注候选事件集合,生成训练样本,通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;从待抽取完备事件的网页中获取网页正文,生成事件标注正文,对存在结构缺失的子句进行结构补全,生成事件补全标注正文;抽取事件补全标注正文的事件实例和事件论元,得到第一事件集合;对第一事件集合的事件实例进行聚类,再进行归一化,生成完备事件。

    命名实体识别语料库的构建方法、系统、设备及存储介质

    公开(公告)号:CN108520065B

    公开(公告)日:2022-04-12

    申请号:CN201810325492.X

    申请日:2018-04-12

    Applicant: 苏州大学

    Abstract: 本发明公开了一种中文命名实体识别语料库的构建方法,基于计算机,采用中文维基百科作为语料,通过提取中文维基百科条目的特征,能够对中文维基百科条目进行分类,确定出中文维基实体条目,并预测中文维基实体条目对应的命名实体的类型,最终,基于类型和重定向信息构建出包含命名实体的中文维基实体列表,可以由中文维基实体列表中的所有命名实体构成中文命名实体识别语料库。具有内容丰富及领域覆盖度广的优点。而且,应用本构建方法,能够基于计算机自动构建中文命名实体识别语料库,节省人力物力。此外,本发明还公开了一种中文命名实体识别语料库的构建系统、设备及一种计算机可读存储介质,效果如上。

    面向互联网新闻事件的演化式摘要生成方法

    公开(公告)号:CN107688652B

    公开(公告)日:2020-12-29

    申请号:CN201710775894.5

    申请日:2017-08-31

    Applicant: 苏州大学

    Inventor: 吴仁守 王红玲

    Abstract: 本发明涉及一种面向互联网新闻事件的演化式摘要生成方法,包括:输入相关新闻文档集合;通过LDA主题模型将文档表示为主题特征向量,所述主题特征向量的维数为第一预定值;将表示为主题特征向量的文档进行聚类,其中,每一类代表一个主题;计算每一个主题中各个文档的本地得分;计算每一个主题中各个文档的全局得分;计算每一个主题中各个文档的最终得分;从每一个主题中抽取得分高的文档标题按时间排序作为摘要;输出摘要。上述面向互联网新闻事件的演化式摘要生成方法保证抽取的摘要具有动态演化性且前后连贯,可读性强,实验结果表明该系统和传统多文档摘要系统相比,在冗余度,连贯性和动态演化性等几个方面有较大提升。

    命名实体识别语料库的构建方法、系统、设备及存储介质

    公开(公告)号:CN108520065A

    公开(公告)日:2018-09-11

    申请号:CN201810325492.X

    申请日:2018-04-12

    Applicant: 苏州大学

    Abstract: 本发明公开了一种中文命名实体识别语料库的构建方法,基于计算机,采用中文维基百科作为语料,通过提取中文维基百科条目的特征,能够对中文维基百科条目进行分类,确定出中文维基实体条目,并预测中文维基实体条目对应的命名实体的类型,最终,基于类型和重定向信息构建出包含命名实体的中文维基实体列表,可以由中文维基实体列表中的所有命名实体构成中文命名实体识别语料库。具有内容丰富及领域覆盖度广的优点。而且,应用本构建方法,能够基于计算机自动构建中文命名实体识别语料库,节省人力物力。此外,本发明还公开了一种中文命名实体识别语料库的构建系统、设备及一种计算机可读存储介质,效果如上。

    事件信息融合方法和系统
    16.
    发明公开

    公开(公告)号:CN102298635A

    公开(公告)日:2011-12-28

    申请号:CN201110269307.8

    申请日:2011-09-13

    Applicant: 苏州大学

    Abstract: 本发明公开了一种事件信息融合方法和系统,用于对事件信息进行抽取、补全、事件聚类和融合,形成事件信息完整度高的完备事件。本发明实施例方法包括:生成包括多个事件的初选事件集合;比较初选事件集中的事件与事件抽取模式的相似度,形成候选事件集合;甄别和标注候选事件集合,生成训练样本,通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;从待抽取完备事件的网页中获取网页正文,生成事件标注正文,对存在结构缺失的子句进行结构补全,生成事件补全标注正文;抽取事件补全标注正文的事件实例和事件论元,得到第一事件集合;对第一事件集合的事件实例进行聚类,再进行归一化,生成完备事件。

Patent Agency Ranking