-
公开(公告)号:CN109299442A
公开(公告)日:2019-02-01
申请号:CN201811168250.0
申请日:2018-10-08
Applicant: 苏州大学
Abstract: 本发明涉及一种汉语篇章主次关系识别方法,包括:读取标注文档集合中的篇章单元标注信息和篇章主次关系类型标注信息,得到篇章主次关系集合,对篇章主次关系集合中的非二元化篇章主次关系进行左子树转化,得到二元篇章主次关系集合。所述标注文档集合是已经标注了篇章主次关系类型的文档集合,是本发明训练模型的基础。基于门控记忆网络的篇章主次关系识别系统和方法,将预测的篇章单元转化成词向量,利用门控记忆神经网络自动的捕获篇章单元之间的隐含特征,以及相对于整体来说更重要的信息;本发明的方法和系统,与现有方法和系统相比,汉语篇章主次关系识别性能得到了提升。
-
公开(公告)号:CN109062897A
公开(公告)日:2018-12-21
申请号:CN201810834431.6
申请日:2018-07-26
Applicant: 苏州大学
CPC classification number: G06F17/271 , G06N3/0454
Abstract: 一种基于深度神经网络的句子对齐方法,语料预处理,生成词表和词嵌入词表,采用双向循环神经网络层,对句子进行编码,不仅考虑单词本身的语义信息,而且考虑该单词的上下文信息,使每个单词获得包含其上下文信息的隐藏状态;将每个句子中单词的隐藏状态求其平均来获得句子向量,再将两个句子向量拼接起来;再通过感知器层获得更抽象的表示,从而判断句子是否对齐。另外,本发明可以通过双向循环神经网络编码后获得的单词隐藏状态不仅包含其自身含义,同时也包含其上下文信息。
-
公开(公告)号:CN106055536B
公开(公告)日:2018-08-21
申请号:CN201610333246.X
申请日:2016-05-19
Applicant: 苏州大学
Abstract: 本发明提出篇章级别的中文事件联合推理方法和系统,该方法和系统能利用论元抽取中有价值的信息来反过来帮助触发词抽取,减少传统管道模型中的级联错误。在实现方法上,本发明采用机器学习和推理相结合的方法,利用各种语言知识来识别中文事件时序关系。本发明的方法和系统,与现有方法和系统相比,识别性能得到了一定提升。
-
公开(公告)号:CN105302794B
公开(公告)日:2018-08-07
申请号:CN201510726584.5
申请日:2015-10-30
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 种中文同指事件识别方法及系统,所述方法包括:对同指标注文本和测试文本中每个包含事件的句子进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合,并分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合。根据标注文本特征集合中各个事件对的特征,训练个同指事件识别模型;再利用同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第集合。对事件同指第集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。如此,提高了同指事件识别的性能。
-
公开(公告)号:CN107992476A
公开(公告)日:2018-05-04
申请号:CN201711216700.4
申请日:2017-11-28
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明涉及一种面向句子级的生物关系网络抽取的语料库生成方法及系统,为了实现机器学习自动完成文本整个标注过程而设计。本发明的方法,包括:对文本句子进行实体识别和映射;生成依存句法树,从依存句法树中抽取出包含语句中所有实体的最小子树,按照结点在文本句子中的词序恢复出对应的词语序列,该词语序列为最短词语序列;对树形结构进行前序遍历,得到结点序列;分析词语序列中的词和结点序列中的实体、功能和关系之间的对应关系,对最短词序列进行标注,生成关系网络标注语料。本发明操作方法简单,极大地节省了人力物力,并能够推广到其他领域的关系网络抽取任务中。
-
公开(公告)号:CN104809236B
公开(公告)日:2018-03-27
申请号:CN201510237163.6
申请日:2015-05-11
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本发明提供的一种基于微博的用户年龄分类方法及系统,包括:获取待测用户,待测用户为未提供年龄信息的微博用户;获取待测用户的微博文本;对待测用户的微博文本进行分词处理,得到待测文本词组,并按照预设规则对待测文本词组进行转换,得到待测特征向量;将待测特征向量作为预先建立的最大熵分类器的输入值,得到测试结果;利用测试结果确定待测用户的用户年龄类型。本申请通过获取待测用户的微博文本,对其进行相关处理后利用最大熵分类器获取测试结果,以根据该测试结果确定其用户年龄类型,由此,将待测用户自身所发表的微博文本作为依据,利用最大熵分类器进行测试,能够使得所确定的待测用户的用户年龄类型更加准确,且,能够实现通用性。
-
公开(公告)号:CN107526727A
公开(公告)日:2017-12-29
申请号:CN201710637423.8
申请日:2017-07-31
Applicant: 苏州大学
IPC: G06F17/28
Abstract: 本发明公开了一种基于统计机器翻译的语言生成方法,将源端树形结构语义表达式转化为自然语言;将预处理后的语料作为基于层次短语的统计机器翻译的源端语言;利用基于层次短语的统计机器翻译解码器生成n-best翻译结果;再对上一步生成的n-best翻译结果进行过滤,得到与源端输入句子答案类型相同的翻译结果;在评测阶段,将中文和英文的参照语句从原来一个增加到了三个,使评测值更能反映真实地翻译效果,具有良好的应用前景。
-
公开(公告)号:CN104536953B
公开(公告)日:2017-12-26
申请号:CN201510032757.3
申请日:2015-01-22
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本申请提供了一种文本情绪极性的识别方法及装置,该方法包括:利用预先构建的分类器,可以确定出待识别文本在不同情绪极性类别中的极性概率值,将最大极性概率值对应的情绪极性确定为待识别文本的情绪极性,从而确定出了待识别文本的情绪极性。并且,预先构建分类器时使用的训练集中包含的语料是从一种语言翻译后的另一种语言,实现了跨语言的训练集的构建,可以有效解决在某种语言场景中已标注语料不足无法构建训练集的问题。进一步地,训练集中还可以加入已确定出情绪极性的文本,扩展了训练集中已标注语料的数量,构建的分类器分类准确率更高。
-
-
公开(公告)号:CN104182535B
公开(公告)日:2017-05-24
申请号:CN201410436852.5
申请日:2014-08-29
Applicant: 苏州大学
Abstract: 本申请公开了一种人物关系抽取方法和装置,该方法包括:确定待抽取的人物关系的基本模式,对人物关系的基本模式进行人称代词的泛化得到泛化模式;在语料库中匹配满足泛化模式的人物关系;在指代消解范围内确定泛化模式中的人称代词所指向的第一人名;抽取该第一人名及对应的泛化模式的人物关系后端的第二人名,得到第一人名和第二人名的人物关系。通过采用上述泛化基本模式的人物关系中前端的人名,然后依据该泛化模式在语料库中进行匹配将得到以泛化模式存在的待抽取的人物关系,使得在面对海量文本资源时,不仅限于基本模式的人物关系的抽取,满足泛化模式的人物关系也可以被抽取出来,大大提高了人物关系的抽取效率。
-
-
-
-
-
-
-
-
-