-
公开(公告)号:CN114817564B
公开(公告)日:2024-08-23
申请号:CN202210458635.0
申请日:2022-04-15
Applicant: 苏州大学
IPC: G06F16/36 , G06F16/35 , G06F40/284 , G06F40/216 , G06N3/0455 , G06N3/082 , G06N3/0442
Abstract: 本发明将属性抽取任务化为片段抽取式阅读理解任务,采用属性抽取与文本属性判断联合训练的多任务模型。模型以BERT‑B i‑LSTM作为编码模块,分别对输入文本与问题编码,将结构化信息作为问题来增强模型的泛化能力。然后使用词边界特征增强的方法以帮助模型捕获属性值的边界特征,结合多头注意力机制在全局向量特征的基础上融入词汇特征。同时,设计一种文本特征交互方法,用于判断文本中是否存在与问题对应的属性值,该方法作为辅助任务与属性值边界预测任务联合训练。
-
公开(公告)号:CN110334355B
公开(公告)日:2023-08-18
申请号:CN201910635878.5
申请日:2019-07-15
Applicant: 苏州大学
IPC: G06F40/284 , G06F16/33
Abstract: 本申请公开了一种关系抽取方法,所述关系抽取方法包括确定目标句子包中每一句子的句子分布式向量和查询关系的关系分布式向量;其中,目标句子包中每一句子均包括第一实体和第二实体;根据所述句子分布式向量和所述关系分布式向量确定策略函数,并利用所述策略函数将所述目标句子包中的所有句子划分为正例和未标注实例;利用所述正例和未标注实例训练关系抽取模型,得到所述第一实体与所述第二实体的实体关系。本申请能够降低噪声数据的影响,提高实体关系抽取结果的准确率。本申请还公开了一种关系抽取系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。
-
公开(公告)号:CN108845988B
公开(公告)日:2022-06-10
申请号:CN201810581154.2
申请日:2018-06-07
Applicant: 苏州大学
IPC: G06F40/295 , G06K9/62 , G06Q30/02
Abstract: 本发明公开了一种实体识别方法、装置、设备及计算机可读存储介质,该方法包括:获取训练数据集为当前数据集;利用当前数据集训练当前识别模型得到当前识别模型,判断其识别准确度是否达到准确度阈值,若是,则确定完成训练,若否,则调整当前识别模型的参数得到当前识别模型,将当前数据集中每个训练样本的样本特征输入至当前选取模型,计算当前选取模型输出的决策的分数,基于该分数调整当前选取模型的参数得到当前选取模型;将包括有决策为保留的全部训练样本的数据集作为当前数据集,返回执行训练当前识别模型的步骤;利用实体识别模型实现实体识别,基于识别到的实体实现对应产品的推荐。保证实体识别模型识别性能较好,实现产品的准确推荐。
-
公开(公告)号:CN108228564B
公开(公告)日:2021-02-19
申请号:CN201810007733.6
申请日:2018-01-04
Applicant: 苏州大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种在众包数据上进行对抗学习的命名实体识别方法,在特定的领域内,只要制定好实体标注规范,用众包标注的方法就能以较低的标注成本快速构建大规模标注语料,在一定程度上缓解了缺乏标注语料的困境,更好得使用众包数据,提高模型在众包数据上的学习质量:不同于之前的数据使用方式,我们使模型能自主地学习语料中由不同标注员造成的标注不当,在原来的模型上加入了对抗学习模型,以此判别出语料中的标注噪声,提高模型的识别能力,更好地趋向专家的高质量标注策略,丰富了神经网络模型的现实意义,使之符合具体的应用。
-
公开(公告)号:CN106951412B
公开(公告)日:2020-07-24
申请号:CN201710182656.3
申请日:2017-03-24
Applicant: 苏州大学
IPC: G06F40/289 , G06F40/30
Abstract: 本发明公开了一种中文情感表达组合抽取方法,包括:提取目标中文语句库中每个语句包含的对象、观点词和关系词;构建该语句对应的一个或多个组合项,每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系,每个情感表达组合为一个对象和一个观点词构成的二元对;对所有语句对应的组合项进行汇总,确定组合项候选集;根据情感表达组合与关系词的映射关系,对组合项候选集中的情感表达组合进行排序;根据排序结果,确定待抽取的情感表达组合。应用本发明实施例所提供的技术方案,抽取到具体的情感表达组合,可以作为情感分析的情感资源,提高情感分析的可靠性。本发明还公开了一种中文情感表达组合抽取装置,具有相应技术效果。
-
公开(公告)号:CN110348017A
公开(公告)日:2019-10-18
申请号:CN201910636562.8
申请日:2019-07-15
Applicant: 苏州大学
Abstract: 本申请公开了一种文本实体检测方法,所述文本实体检测方法包括利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。本方法能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。本申请还公开了一种文本实体检测系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。
-
公开(公告)号:CN108664589A
公开(公告)日:2018-10-16
申请号:CN201810431979.6
申请日:2018-05-08
Applicant: 苏州大学
Abstract: 本申请公开了一种基于领域自适应的文本信息提取方法,包括:对输入文本进行预处理,得到文本向量;根据第二领域与第一领域间的共有特征提取参数提取文本向量的共有特征,根据第一领域内的私有特征提取参数提取文本向量的私有特征;对进行领域模糊后的共有特征进行领域分类;根据分类结果以及第一领域的领域信息对共有特征提取参数进行分析修正;根据私有特征对文本向量进行相邻词语预测;根据预测结果以及文本中的相邻词语对私有特征提取参数进行分析修正。该方法可提升社交媒体等领域的文本分析提取能力。本申请还公开了基于领域自适应的文本信息提取装置、系统及可读存储介质,具有上述有益效果。
-
公开(公告)号:CN104715399B
公开(公告)日:2018-03-02
申请号:CN201510165907.8
申请日:2015-04-09
Applicant: 苏州大学
IPC: G06Q30/02
Abstract: 本发明公开了一种评分预测方法与系统,获取历史评论数据,使用基于词向量的方法构建主题词分布表,根据主题词分布表计算指定的第一用户对第一物品的评论特征表示,同时获取历史评分数据,计算指定的第一用户对第一物品的修正平均分作为特征之一,与主题特征一起作为线性回归模型的特征,计算出各个特征的权重和误差偏置,针对需要预测的第二用户对第二物品的评分,首先计算出第二用户对第二物品的评论特征表示和修正平均分,结合主题权重和误差偏置获得第二用户对第二物品的评分。利用词向量方法构建主题词表,根据评论内容预测评分同时从用户角度以及物品角度进行考虑,并加之协同过滤算法得到组合推荐模型,使预测结果更加准确全面。
-
公开(公告)号:CN104965821B
公开(公告)日:2018-01-05
申请号:CN201510422815.3
申请日:2015-07-17
Applicant: 苏州大学
IPC: G06F17/27
Abstract: 本发明提供一种数据标注方法及装置,通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从未标注的词中选取出最有歧义的词,对所选取出的最有歧义的词的依存关系进行人工标注,得到部分标注的待分析句子。即本发明实施提供的上述技术方案是一种基于部分标注的数据标注方法,其相对于现有完全标注方法来说降低工作量,并且发明人通过实验证明,对同等数量的待分析句子进行标注,本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80%的工作量,却取得与完全标注方法近似的准确度。
-
公开(公告)号:CN104965821A
公开(公告)日:2015-10-07
申请号:CN201510422815.3
申请日:2015-07-17
Applicant: 苏州大学张家港工业技术研究院
IPC: G06F17/27
Abstract: 本发明提供一种数据标注方法及装置,通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从未标注的词中选取出最有歧义的词,对所选取出的最有歧义的词的依存关系进行人工标注,得到部分标注的待分析句子。即本发明实施提供的上述技术方案是一种基于部分标注的数据标注方法,其相对于现有完全标注方法来说降低工作量,并且发明人通过实验证明,对同等数量的待分析句子进行标注,本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80%的工作量,却取得与完全标注方法近似的准确度。
-
-
-
-
-
-
-
-
-