-
公开(公告)号:CN112380854A
公开(公告)日:2021-02-19
申请号:CN202011288208.X
申请日:2020-11-17
Applicant: 苏州大学
IPC: G06F40/284
Abstract: 本发明提供了一种中文分词方法、装置、电子设备及存储介质,包括步骤:获取待处理文本序列,待处理文本序列中包括多个依次排列的字符;提取待处理文本序列中每个字符对应的特征向量,得到一个特征向量组;将特征向量组中每个特征向量映射为一个二维向量,其中,二维向量包括第一维值和第二维值;通过第一维值和第二维值确定对应字符间隔是否为词边界。该方法将中文字词的多分类问题简化到词边界的两分类问题,即该字符间隔是词边界和不是词边界,这样系统在对待处理文本序列进行分词时,计算量将大大减少,所消耗的时间自然大大缩短,从而提高整个中文分词处理的工作效率。
-
公开(公告)号:CN110134720A
公开(公告)日:2019-08-16
申请号:CN201910412962.0
申请日:2019-05-17
Applicant: 苏州大学
IPC: G06F16/2458 , G06F16/28 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种融合局部特征与深度学习的事件联合抽取方法。本发明融合局部特征与深度学习的事件联合抽取方法,包括:抽取实体、词性与依存分析,利用PV-DM模型训练文档向量;学习隐藏特征,进入GCN;再次,识别出事件元素与事件触发之间的记忆单元,帮助识别事件类型与事件论元;最后,使用CRF对最终的事件类型进行标注,全连接层中,用Softmax函数对事件元素进行识别。本发明的有益效果:借助文档向量学习文章中的主旨信息,其次利用图卷积网络挖掘事件之间的联系,最后利用记忆单元与局部特征学习事件类型与事件元素之间的信息,以此完成事件联合抽取,提高其识别性能。
-
公开(公告)号:CN109062910A
公开(公告)日:2018-12-21
申请号:CN201810835723.1
申请日:2018-07-26
Applicant: 苏州大学
CPC classification number: G06F17/2827 , G06F17/274 , G06N3/0454
Abstract: 一种基于深度神经网络的句子对齐方法,采用双向循环神经网络层,对句子进行编码,不仅考虑了单词本身的语义信息,还考虑了该单词的上下文信息,使每个单词获得包含其上下文信息的隐藏状态;门关联网络层,计算两个句子中词对间的语义关系信息;以双向循环神经网络获得的每个单词的隐藏状态作为输入,使用通过门机制融合的双线性模型和单层神经网络的网络,来从线性关系和非线性关系两个角度捕获词对间相似性,然后使用最大池化操作来捕获其最具信息量的部分;对于互为翻译的两个句子中存在绝大多数互为翻译的单词,传统方法也是利用词对信息进行对齐判断,本发明不需要利用额外的词典信息,来捕获词对间的语义关系特征。并能获得词对相似度矩阵。
-
公开(公告)号:CN104317890B
公开(公告)日:2018-05-01
申请号:CN201410572086.5
申请日:2014-10-23
Applicant: 苏州大学
Abstract: 本申请提供的文本连接词的识别方法及装置,在获取的待识别文本中,提取待识别的连接词,利用预先构建的分类器对该识别连接词进行识别,获得识别结果,进而利用识别结果确定待识别连接词的属性,该属性为连接词或非连接词。在本实施例中,首先在待识别文本中获得连接词,该连接词为初步识别的连接词,再利用利用已标注的连接词样本作为训练集构建的分类器进一步确定,从而准确识别出待识别文本中的连接词。
-
公开(公告)号:CN104537118B
公开(公告)日:2017-12-26
申请号:CN201510036778.2
申请日:2015-01-26
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本申请提供了一种微博数据处理方法、装置及系统,所述方法中使用最大熵分类器计算每个待分类特征值在待测样本预设为正类和负类时,对应的待分类正预测子条件概率和待分类负预测子条件概率;然后得到待分类正预测条件概率和待分类负预测条件概率;在比较结果为待分类正预测条件概率最大的情况下,确定待测样本的类别为正;在比较结果为待分类负预测条件概率最大的情况下,确定待测样本的类别为负,实现了对待测样本类别的预测。在预测出待测样本的类别为正时,确定出待测样本对应的两个账号属于同一用户,在预测出待测样本的类别为负时,确定出待测样本对应的两个账号不属于同一用户,从而实现了对不同微博网站下的同一用户的识别。
-
公开(公告)号:CN107025250A
公开(公告)日:2017-08-08
申请号:CN201610221352.9
申请日:2016-04-11
Applicant: 苏州大学
CPC classification number: G06F17/30705 , G06F17/2775 , G06Q50/01
Abstract: 本申请提供了一种互联网用户数据处理方法、装置及系统,互联网用户数据处理方法使用最大熵分类器计算每个词特征对应的待分类正预测子条件概率和待分类负预测子条件概率;计算得到待分类正预测条件概率,及计算得到待分类负预测条件概率;在待分类正预测条件概率最大的情况下,确定待测样本的类别为正;在待分类负预测条件概率最大的情况下,确定待测样本的类别为负,实现了使用最大熵分类器对待测样本类别的预测。在预测出待测样本的类别为正时,确定出待测样本的发言者的婚姻类型为已婚,在预测出待测样本的类别为负时,确定出待测样本的发言者的婚姻类型为未婚,从而实现了对互联网用户的婚姻类型的识别。
-
公开(公告)号:CN104156352B
公开(公告)日:2017-04-19
申请号:CN201410403486.3
申请日:2014-08-15
Applicant: 苏州大学
Abstract: 本发明公开了一种中文事件的处理方法及系统,方法包括:对原始文本内文档的语句进行分析,得到依存和句法文档集合;依据事件抽取请求数据抽取种子事件模板,得到种子事件模板集合;在依存和句法文档集合中,依据触发词选取规则选择候选触发词,得到候选触发词集合;依据依存和句法文档集合中依存关系信息,将候选触发词集合的候选触发词与其所属语句中的实体进行两两组合,得到多个候选事件模板,所有候选事件模板组成候选事件模板集合;依据语义信息集合及种子事件模板集合,对候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合;对过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合。
-
公开(公告)号:CN106445911A
公开(公告)日:2017-02-22
申请号:CN201610156465.5
申请日:2016-03-18
Applicant: 苏州大学
IPC: G06F17/27
CPC classification number: G06F17/2705
Abstract: 本发明涉及一种基于微观话题结构的指代消解方法及系统,首先获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构;然后从篇章微观话题结构中识别主述位;再以主述位为连接端口识别篇章基本话题单元之间的衔接关系;最后根据识别的衔接关系,将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中,减少消解对的数量,再提取限定范围内的名词所拥有的词性、句法及语义特征,最后利用最大熵分类算法完成消解单元的识别。该方法是基于主位和述位,以话题为中心,立足于小句层面的指代消解方法,利用主述位结构及主位推进模式,缩小了指代消解对的数量,降低计算的复杂度,从而提高指代消解性。
-
公开(公告)号:CN103345525B
公开(公告)日:2016-08-24
申请号:CN201310308226.3
申请日:2013-07-22
Applicant: 苏州大学
Abstract: 本发明涉及自然语言处理及模式识别技术领域,公开了一种文本分类方法、装置及处理器。该方法中,首先根据分类器获取情感测试样本和情绪测试样本分别属于各个情感类别和各个情绪类别的初始概率,继而选取情感测试样本和情绪测试样本作为共同样本,并获取所述共同样本的联合概率,将所述联合概率和初始概率进行加权求和,并根据求和的结果获取待分类文本所属的情感类别,和/或情绪类别。这个过程中,将待分类文本的情感和情绪进行联合,以实现对文本的情感分类,和/或情绪分类。由于同一文本的情感和情绪之间有着密切的联系,在将待分类文本的情感和情绪联合,以对待分类文本进行分类时,能有效提高文本分类的精度。
-
公开(公告)号:CN103279549B
公开(公告)日:2016-05-25
申请号:CN201310224508.5
申请日:2013-06-07
Applicant: 苏州大学
IPC: G06F17/30
Abstract: 本申请公开了一种目标对象的目标数据的获取方法及装置,所述方法包括:获取至少一个参考对象的参考评论参数作为训练样本,以由所述训练样本构建分类器;利用所述分类器对目标对象的每条目标评论参数进行分类,以确定所述目标对象的目标评论参数中第一类别评论的第一数量值和第二类别评论的第二数量值;依据所述第一数量值和所述第二数量值,获取所述目标对象的目标数据。通过本申请能够准确的依据构建的分类器对未来公布的目标对象如未上映电影的目标评论参数进行分类,从而获取到目标对象的目标数据,如未上映电影被网民期待观看的期待指数等,进而由此预测到该未上映电影的上映票房。
-
-
-
-
-
-
-
-
-