一种事件触发词识别方法及装置

    公开(公告)号:CN105138520B

    公开(公告)日:2018-08-17

    申请号:CN201510530965.6

    申请日:2015-08-26

    Abstract: 本发明公开了一种事件触发词识别方法及装置,该方法包括:将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料;根据所述原始语料以及所述翻译语料,确定当前候选词的双语特征,所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征;通过所述双语特征,使用预先建立的二元分类器对所述当前候选词进行分类,以确定所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对多个具有双语特征的训练样本进行训练得到的。本发明所提供的事件触发词识别方法及装置,同时从事件的原始以及翻译语料入手,使用二者的综合信息去识别事件的触发词,可以避免语料的稀疏问题,有利于提高系统的识别性能。

    基于大小导师知识蒸馏的少样本情感分类方法

    公开(公告)号:CN114722805B

    公开(公告)日:2022-08-30

    申请号:CN202210653730.6

    申请日:2022-06-10

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于大小导师知识蒸馏的少样本情感分类方法,包括收集大量情感分类任务上的未标注样本和有标注样本,使用有标注样本训练大导师模型和小导师模型;全部未标注样本经过小导师模型得到每个样本概率的不确定性,然后根据阈值筛选出样本概率高度不确定的样本再次经过大导师模型;结合大导师模型和小导师模型的概率输出形成软标签来蒸馏学生模型,使用蒸馏后的学生模型进行分类预测。本发明减少了访问大导师模型的频率,减少了训练学生模型过程中的蒸馏时间,减少资源消耗的同时提升了分类识别的正确率。

    基于融合模态内和模态间关系的数据处理方法及系统

    公开(公告)号:CN113254741A

    公开(公告)日:2021-08-13

    申请号:CN202110665991.5

    申请日:2021-06-16

    Applicant: 苏州大学

    Abstract: 本申请涉及基于融合模态内和模态间关系的数据处理方法及系统,包括:获取社交网络指向目标分类的样本数据,并将样本数据划分为训练集、验证集和测试集,获得训练集样本数据、验证集样本数据和测试集样本数据;构建预设分类模型,所述预设分类模型包括特征提取网络,与所述特征提取网络相连的目标分类主任务网络和多模态主题信息辅助任务网络;将所述训练集样本数据输入所述预设分类模型并利用预设的损失函数进行训练,使用门控机制融合主任务和辅助任务的输出,得到社交数据分类模型,所述社交数据分类模型用于对输入的待分类数据进行分类。本申请能够有效的提升社交网络数据指向目标分类的性能。

    一种新闻分类方法和系统

    公开(公告)号:CN103324758B

    公开(公告)日:2017-07-14

    申请号:CN201310288756.6

    申请日:2013-07-10

    Applicant: 苏州大学

    Abstract: 本申请提供一种新闻分类方法和系统。其中,一种新闻分类方法包括:使用预先构建的每个基分类器对待分类新闻进行分类,得到每个基分类器的分类结果;依据每个基分类器的分类结果,分别对待分类新闻进行情绪判定,得到判定结果;使用判定结果,得到待分类新闻含有的所有情绪类别。由于情绪判定是指判定待分类新闻是否含有用户看到待分类新闻时产生的情绪,判定结果表明所述待分类新闻含有的情绪,所以使用判定结果,即可以得到所述待分类新闻含有的所有情绪类别,并将待分类新闻划分到其含有的所有情绪类别对应的新闻中,实现依据情绪对新闻划分。进一步依据不同情绪推荐新闻,使推荐给用户的新闻更能满足用户当前的需求。

    一种具有时间适应性的分类方法及装置

    公开(公告)号:CN106126751A

    公开(公告)日:2016-11-16

    申请号:CN201610685180.0

    申请日:2016-08-18

    Applicant: 苏州大学

    CPC classification number: G06F16/355 G06F16/35

    Abstract: 本申请公开一种具有时间适应性的分类方法和装置,所述方法通过将已标注的历史样本集作为训练样本训练一基础分类器,并基于基础分类器采用迭代方式对现阶段的预定未标注样本集进行标注,在此基础上,结合利用所述历史样本集及现阶段已标注的样本,来训练得到一目标分类器,后续可利用该目标分类器对待测样本进行分类。由于在训练目标分类器时,向历史样本集中添加了现阶段的样本,从而使得在利用已标注的历史样本训练分类器时还结合考虑了现阶段样本的特征,进而使得最终训练得出的分类器能够适应现阶段样本的分类任务,具有较高的时间适应性,且由于充分利用已标注的历史样本来预测现阶段样本的类别标签,从而大大减少了现阶段样本的标注工作。

    一种互联网用户数据处理方法、装置及系统

    公开(公告)号:CN105868180A

    公开(公告)日:2016-08-17

    申请号:CN201610221211.7

    申请日:2016-04-11

    Applicant: 苏州大学

    CPC classification number: G06F17/277 G06F17/2715 G06F17/2765

    Abstract: 本申请提供了一种互联网用户数据处理方法、装置及系统,互联网用户数据处理方法使用最大熵分类器计算每个词特征对应的待分类正预测子条件概率和待分类负预测子条件概率;计算得到待分类正预测条件概率,及计算得到待分类负预测条件概率;在待分类正预测条件概率最大的情况下,确定待测样本的类别为正;在待分类负预测条件概率最大的情况下,确定待测样本的类别为负,实现了使用最大熵分类器对待测样本类别的预测。在预测出待测样本的类别为正时,确定出待测样本的发言者的职业类型为学生,在预测出待测样本的类别为负时,确定出待测样本的发言者的职业类型为非学生,从而实现了对互联网用户的职业类型的识别。

    一种情感与非情感问题的分类方法及系统

    公开(公告)号:CN105205044A

    公开(公告)日:2015-12-30

    申请号:CN201510531003.2

    申请日:2015-08-26

    Abstract: 本发明公开了一种情感与非情感问题的分类方法及系统,该方法包括:抓取作为训练样本的问题语料;参考预设的情感类问题分类规则,对作为训练样本的问题语料进行类别标签标注;利用标注后的作为训练样本的问题语料,构建情感问题分类器;向构建得到的情感问题分类器输入作为测试样本的问题语料,并利用情感问题分类器输出的类别标签,确认作为测试样本的问题语料的情感类别。以上技术方案能够对自动问答系统中问题语料的情感与非情感问题进行分类,达到了自动问答系统能够更好、更准确地对问题进行回答的目的。

    一种问题分类方法及装置

    公开(公告)号:CN105183808A

    公开(公告)日:2015-12-23

    申请号:CN201510530887.X

    申请日:2015-08-26

    CPC classification number: G06F16/3329 G06K9/6278

    Abstract: 本发明公开了一种问题分类方法及装置,该方法包括:将待分类问题输入至预先建立的分类器中,所述分类器为对多组已知类别的训练样本集进行训练得到的,包括主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率;通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别以及客观类别的条件概率;分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率;将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别。本发明所提供的问题分类方法及装置,能够实现对输入的问题的主客观类别分类,具有较高的分类准确率。

    一种评价类型分类方法与系统

    公开(公告)号:CN105159972A

    公开(公告)日:2015-12-16

    申请号:CN201510530886.5

    申请日:2015-08-26

    CPC classification number: G06F16/36 G06F16/35 G06K9/6269

    Abstract: 本发明公开了一种评价类型分类方法与系统,获取目标语料的特征信息,将所述特征信息进行融合;将进行融合后的特征信息转换为支持向量机模型对应格式的可用语料;将所述可用语料按预设规则分为训练语料与测试语料;将所述训练语料进行训练得到预设数量的评价类型的分类模型;分别用每一种所述评价类型的分类模型对所述测试语料中的评价类型进行分类,得到所述测试语料中评价类型的分类结果,使用支持向量机模型,充分地利用上下文信息,建立一个统一的概率模型,可以高效准确地对语料进行评价类型分类。

    一种基于微博的用户年龄分类方法及系统

    公开(公告)号:CN104809236A

    公开(公告)日:2015-07-29

    申请号:CN201510237163.6

    申请日:2015-05-11

    Applicant: 苏州大学

    CPC classification number: G06F17/30705

    Abstract: 本发明提供的一种基于微博的用户年龄分类方法及系统,包括:获取待测用户,待测用户为未提供年龄信息的微博用户;获取待测用户的微博文本;对待测用户的微博文本进行分词处理,得到待测文本词组,并按照预设规则对待测文本词组进行转换,得到待测特征向量;将待测特征向量作为预先建立的最大熵分类器的输入值,得到测试结果;利用测试结果确定待测用户的用户年龄类型。本申请通过获取待测用户的微博文本,对其进行相关处理后利用最大熵分类器获取测试结果,以根据该测试结果确定其用户年龄类型,由此,将待测用户自身所发表的微博文本作为依据,利用最大熵分类器进行测试,能够使得所确定的待测用户的用户年龄类型更加准确,且,能够实现通用性。

Patent Agency Ranking