-
公开(公告)号:CN104199981A
公开(公告)日:2014-12-10
申请号:CN201410495083.6
申请日:2014-09-24
Applicant: 苏州大学
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06K9/6278
Abstract: 本发明提供一种基于微博文本的个人和机构用户分类方法及系统,本发明方法包括以下步骤。S1、根据微博网站提供的API收集用户发表的微博文本,并对收集到的用户类型进行标注。S2、将标注好的微博文本进行分词处理后作为训练样本,并利用所述训练样本构建贝叶斯分类器。S3、根据所述贝叶斯分类器对待测用户进行分类,并根据分类结果确定用户类别。本发明对于微博用户的自动分类,具有较高的准确性。
-
公开(公告)号:CN102693219A
公开(公告)日:2012-09-26
申请号:CN201210182651.8
申请日:2012-06-05
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明提供一种中文事件抽取方法和系统,该方法包括:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析;根据词的内部结构,将符合抽取条件的词标记为候选触发词;根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉;利用最大熵识别模型抽取触发词,并获取每个触发词的可信度;依据每个触发词的可信度,将触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词;利用最大熵分类模型对触发词进行分类,得到事件集合。本发明提供的方法和系统从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和中文词在篇章中语义的一致性,提高了中文事件抽取的性能。
-
公开(公告)号:CN102339362A
公开(公告)日:2012-02-01
申请号:CN201110350614.9
申请日:2011-11-08
Applicant: 苏州大学
IPC: G06F19/18
Abstract: 本发明公开了一种抽取蛋白质相互作用关系的方法,包括:对自然语句进行句法分析,确定该自然语句的完全句法树,在该完全句法树中提取两个蛋白质名称之间的最短成分路径;对自然语句进行依存关系分析,确定该自然语句的依存关系树,在该依存关系树中提取两个蛋白质名称之间的最短依存路径;根据最短依存路径扩展最短成分路径,确定扩展后的成分路径为该自然语句的关系树;利用预存的分类模型对该关系树进行二元分类。本发明公开的抽取方法,关系树中包含了丰富的结构化信息,具有较好的通用性,其精度和召回率得到了提高,总体性能较好,同时减小了系统开销。
-
公开(公告)号:CN112380854B
公开(公告)日:2024-03-01
申请号:CN202011288208.X
申请日:2020-11-17
Applicant: 苏州大学
IPC: G06F40/284
Abstract: 本发明提供了一种中文分词方法、装置、电子设备及存储介质,包括步骤:获取待处理文本序列,待处理文本序列中包括多个依次排列的字符;提取待处理文本序列中每个字符对应的特征向量,得到一个特征向量组;将特征向量组中每个特征向量映射为一个二维向量,其中,二维向量包括第一维值和第二维值;通过第一维值和第二维值确定对应字符间隔是否为词边界。该方法将中文字词的多分类问题简化到词边界的两分类问题,即该字符间隔是词边界和不是词边界,这样系统在对待处理文本序列进行分词时,计算量将大大减少,所消耗的时间自然大大缩短,从而提高整个中文分词处理的工作效率。
-
公开(公告)号:CN113297352B
公开(公告)日:2024-01-16
申请号:CN202110628590.2
申请日:2021-06-07
Applicant: 苏州大学
Abstract: 本申请涉及一种基于多任务网络的属性级情感分类方法及装置,属于情感分析技术领域。该方法包括:获取情感分类样本语料并对语料进行预处理,得到处理后的样本语料;构建预设分类模型,所述预设分类模型包括属性级情感分类主任务网络、篇章级情感分类辅助任务网络、上下句情感连贯性判断辅助任务网络,所述主任务网络和辅助任务网络由共享的编码层和与编码层相连的各独立分类层构成;将所述处理后的样本语料输入所述预设分类模型并利用预设的损失函数进行训练,得到情感分类模型,所述情感分类模型用于对输入的待分类语料进行属性级情感分类。本申请有效地提高属性级情感分类的
-
公开(公告)号:CN114936563B
公开(公告)日:2023-07-25
申请号:CN202210453456.8
申请日:2022-04-27
Applicant: 苏州大学
IPC: G06F40/289 , G06F16/35 , G06F40/30 , G06N3/045 , G06N3/0895 , G06N7/01
Abstract: 本发明首先将事件触发词抽取和论元抽取统一为一个独立的跨度检测和分类处理模式,针对处理模式分别设计了一个非限制性抽取问题、一个限制性抽取问题和一组限制性分类问题,我们利用这些问题完成相应的跨度检测和分类任务。其次,我们将统一处理模式转换为两轮问答组件,在第一轮中,通过一个非限制性问题获得所有可能的跨度。在第二轮中,利用每个得到的跨度作为约束迭代得到相应的类型。最后,我们将两个组件进行双向堆叠并用于事件抽取任务上(一个方向是依次提取事件触发词和论元,而另一个方向首先识别论元,然后识别事件触发词)。通过两个方向上的联合训练,减少了错误级联,并有效地利用了事件触发词和论元之间的互补性。
-
公开(公告)号:CN109977372B
公开(公告)日:2023-06-27
申请号:CN201910233095.4
申请日:2019-03-26
Applicant: 苏州大学
IPC: G06F40/154
Abstract: 本发明公开了一种中文篇章树的构建方法。本发明一种中文篇章树的构建方法,包括:依次将篇章中由人工分割字句得到的标准篇章基本单元的词向量和词性标记向量拼接并输入篇章基本单元编码器(EDU Encoder)以获取各个篇章基本单元的编码结果;将EDU Encoder编码得到的各个篇章基本单元的向量表征输入分割点编码器(Split Encoder)实现对相邻篇章基本单元之间的分割点的表征;将Split Encoder对各个分割点的编码结果输入一个编码器—解码器结构(Encoder‑Decoder),以编码—解码的形式进行分割点选择;本发明的有益效果:本发明首次采用了自顶向下的篇章解析模式,将传统的自底向上的篇章树节点的构建过程转换为自顶向下的分割点选择的过程。
-
公开(公告)号:CN109325228B
公开(公告)日:2023-02-10
申请号:CN201811093486.2
申请日:2018-09-19
Applicant: 苏州大学
IPC: G06F40/284 , G06F40/211 , G06F40/30
Abstract: 本发明涉及一种英文事件触发词抽取方法,包括:读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形。上述英文事件触发词抽取方法,基于论元预测的事件触发词抽取系统和方法,将预测的论元和句子转化成词向量,利用循环神经网络自动的捕获触发词和论元之间的隐含特征,以及论元的深层语义信息。本发明的方法和系统,与现有方法和系统相比,触发词抽取性能得到了提升。
-
公开(公告)号:CN115269876A
公开(公告)日:2022-11-01
申请号:CN202210931975.0
申请日:2022-08-04
Applicant: 苏州大学
IPC: G06F16/36 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本申请涉及自然语言处理技术领域,公开了一种化学物与蛋白质作用关系的抽取方法,包括:获取文本中的化学物实体集合、蛋白质实体集合、以及若干个问题模板;从化学物实体集合中选取一个化学物实体作为目标化学物实体,将目标化学物实体输入每个问题模板中;利用包含目标化学物实体的问题模板对文本进行询问,抽取文本中与目标化学物实体存在作用关系的目标蛋白质实体以得到关系组。当一段文本中的化学物实体和蛋白质实体数量较多时,本申请通过问答的形式从文本中抽取化学物‑蛋白质作用关系,可以克服化学物实体和蛋白质实体两两配对所带来的实体对数量众多的缺点,有效提高化学物‑蛋白质作用关系的抽取效率。
-
公开(公告)号:CN114706986B
公开(公告)日:2022-09-23
申请号:CN202210621469.1
申请日:2022-06-02
Applicant: 苏州大学
Abstract: 本发明公开了一种多类别情感分类方法、装置以及计算机存储介质,包括对样本数据集中的文本数据添加分类模板与回归模板,并在模板中标注标签描述词,得到提示训练样本,基于所述情感类别标签计算所述标签描述词的概率,得到所述提示训练样本的目标值;基于所述提示训练样本及所述目标值,采用二值交叉熵损失函数训练预训练模型,得到训练完成的情感分类检测模型;利用情感分类检测模型检测待检测文本数据,将回归预测值与分类预测概率利用权重距离融合,取最小权重距离对应的情感类别标签作为所述待检测文本数据的预测类别。实现了在训练数据量很少的情况下也可以完成快速学习,进一步提高了多类别情感分类任务的精度。
-
-
-
-
-
-
-
-
-