一种融合答案信息的问题分类模型构建方法、装置和介质

    公开(公告)号:CN108846138B

    公开(公告)日:2022-06-07

    申请号:CN201810750564.5

    申请日:2018-07-10

    Applicant: 苏州大学

    Inventor: 张民 朱芬红

    Abstract: 本发明实施例公开了一种融合答案信息的问题分类模型构建方法、装置和计算机可读存储介质,获取待处理问题所对应的候选答案;每个待处理问题对应的候选答案个数往往为多个;依据各待处理问题和相应的候选答案之间的相关度,构建问题‑答案语料库;在该语料库中,每个问题有其对应的一个答案。按照预设的融合规则,将问题‑答案语料库中的每个待处理问题及其对应的答案进行融合处理,得到相应的融合结果;利用融合结果对初始问题分类模型进行训练,以得到问题分类模型。由于融合结果中包含有答案的特征信息,克服了现有技术中仅从问题本身出发,特征不丰富的问题。利用融合结果对初始问题分类模型进行训练时,可以有效提升问题分类模型的精度。

    在众包数据上进行对抗学习的命名实体识别方法、设备及可读存储介质

    公开(公告)号:CN108228564B

    公开(公告)日:2021-02-19

    申请号:CN201810007733.6

    申请日:2018-01-04

    Applicant: 苏州大学

    Abstract: 本发明涉及一种在众包数据上进行对抗学习的命名实体识别方法,在特定的领域内,只要制定好实体标注规范,用众包标注的方法就能以较低的标注成本快速构建大规模标注语料,在一定程度上缓解了缺乏标注语料的困境,更好得使用众包数据,提高模型在众包数据上的学习质量:不同于之前的数据使用方式,我们使模型能自主地学习语料中由不同标注员造成的标注不当,在原来的模型上加入了对抗学习模型,以此判别出语料中的标注噪声,提高模型的识别能力,更好地趋向专家的高质量标注策略,丰富了神经网络模型的现实意义,使之符合具体的应用。

    一种文本实体检测方法、系统及相关组件

    公开(公告)号:CN110348017A

    公开(公告)日:2019-10-18

    申请号:CN201910636562.8

    申请日:2019-07-15

    Applicant: 苏州大学

    Abstract: 本申请公开了一种文本实体检测方法,所述文本实体检测方法包括利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。本方法能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。本申请还公开了一种文本实体检测系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。

    融入依存关系的神经机器翻译方法

    公开(公告)号:CN109062907A

    公开(公告)日:2018-12-21

    申请号:CN201810785646.3

    申请日:2018-07-17

    Applicant: 苏州大学

    Inventor: 段湘煜 王坤 张民

    CPC classification number: G06F17/289

    Abstract: 本发明涉及一种融入依存关系的神经机器翻译方法,为了得到更加精准的神经翻译模型而设计。本发明融入依存关系的神经机器翻译方法,解析出源端句子的依存树,确定源端句子词与词之间的关联性信息;基于所述依存关系信息,确定依存关联性损失Δdep,进而指导得到句对网络整体损失。本发明在源端添加自注意力机制,并将自注意力机制融入依存指导。

    一种融合答案信息的问题分类模型构建方法、装置和介质

    公开(公告)号:CN108846138A

    公开(公告)日:2018-11-20

    申请号:CN201810750564.5

    申请日:2018-07-10

    Applicant: 苏州大学

    Inventor: 张民 朱芬红

    Abstract: 本发明实施例公开了一种融合答案信息的问题分类模型构建方法、装置和计算机可读存储介质,获取待处理问题所对应的候选答案;每个待处理问题对应的候选答案个数往往为多个;依据各待处理问题和相应的候选答案之间的相关度,构建问题-答案语料库;在该语料库中,每个问题有其对应的一个答案。按照预设的融合规则,将问题-答案语料库中的每个待处理问题及其对应的答案进行融合处理,得到相应的融合结果;利用融合结果对初始问题分类模型进行训练,以得到问题分类模型。由于融合结果中包含有答案的特征信息,克服了现有技术中仅从问题本身出发,特征不丰富的问题。利用融合结果对初始问题分类模型进行训练时,可以有效提升问题分类模型的精度。

    基于领域自适应的文本信息提取方法、装置、系统及介质

    公开(公告)号:CN108664589A

    公开(公告)日:2018-10-16

    申请号:CN201810431979.6

    申请日:2018-05-08

    Applicant: 苏州大学

    Inventor: 陈文亮 卢奇 张民

    Abstract: 本申请公开了一种基于领域自适应的文本信息提取方法,包括:对输入文本进行预处理,得到文本向量;根据第二领域与第一领域间的共有特征提取参数提取文本向量的共有特征,根据第一领域内的私有特征提取参数提取文本向量的私有特征;对进行领域模糊后的共有特征进行领域分类;根据分类结果以及第一领域的领域信息对共有特征提取参数进行分析修正;根据私有特征对文本向量进行相邻词语预测;根据预测结果以及文本中的相邻词语对私有特征提取参数进行分析修正。该方法可提升社交媒体等领域的文本分析提取能力。本申请还公开了基于领域自适应的文本信息提取装置、系统及可读存储介质,具有上述有益效果。

    一种数据标注方法及装置

    公开(公告)号:CN104965821B

    公开(公告)日:2018-01-05

    申请号:CN201510422815.3

    申请日:2015-07-17

    Applicant: 苏州大学

    Abstract: 本发明提供一种数据标注方法及装置,通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从未标注的词中选取出最有歧义的词,对所选取出的最有歧义的词的依存关系进行人工标注,得到部分标注的待分析句子。即本发明实施提供的上述技术方案是一种基于部分标注的数据标注方法,其相对于现有完全标注方法来说降低工作量,并且发明人通过实验证明,对同等数量的待分析句子进行标注,本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80%的工作量,却取得与完全标注方法近似的准确度。

    一种信息判别方法和系统
    79.
    发明公开

    公开(公告)号:CN105808722A

    公开(公告)日:2016-07-27

    申请号:CN201610128564.2

    申请日:2016-03-08

    Applicant: 苏州大学

    Abstract: 本发明提供了一种信息判别方法及系统,基于网络爬虫技术,检索并收集传统媒体和社交媒体的热点信息对应的网页信息,并对收集到的网页信息进行处理,得到类别数据标记的、划分有训练集数据和测试集数据的传统媒体和社交媒体数据集合;基于训练集数据进行主题建模获取主题与关键词文档,并建立对应传统媒体数据的主题特征集合和对应社交媒体数据的关键词特征集合;利用主题特征集合和关键词特征集合训练分类器,通过得到的传统媒体分类器和社交媒体分类器对测试集数据进行分类判别,得到能够引发社交媒体报道的传统媒体数据,和/或能够引发传统媒体报道的社交媒体数据。由此采用对多个媒体的监测,能够更全面,更快的分析和预测舆情发展的趋势。

    一种数据标注方法及装置

    公开(公告)号:CN104965821A

    公开(公告)日:2015-10-07

    申请号:CN201510422815.3

    申请日:2015-07-17

    Abstract: 本发明提供一种数据标注方法及装置,通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从未标注的词中选取出最有歧义的词,对所选取出的最有歧义的词的依存关系进行人工标注,得到部分标注的待分析句子。即本发明实施提供的上述技术方案是一种基于部分标注的数据标注方法,其相对于现有完全标注方法来说降低工作量,并且发明人通过实验证明,对同等数量的待分析句子进行标注,本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80%的工作量,却取得与完全标注方法近似的准确度。

Patent Agency Ranking