-
公开(公告)号:CN115169365B
公开(公告)日:2025-04-18
申请号:CN202210821444.6
申请日:2022-07-12
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F40/35 , G06N5/022 , G06F18/22 , G06F40/242
Abstract: 本申请公开了用于对话情感识别模型的训练处理方法、电子设备、存储介质,对话情感识别模型的训练处理方法包括:获取训练样本中的当前对话元素;从对话情感识别模型的外部知识库中获取与当前对话元素相对应的各外部知识;判断当前对话元素与对应的各外部知识是否相匹配;若不匹配,则剔除外部知识库中与当前对话元素不匹配的外部知识;若匹配,则保留外部知识库中与当前对话元素匹配的外部知识。通过上述方式,本申请能够提高对话情感识别模型预测情感的准确性。
-
公开(公告)号:CN116303927A
公开(公告)日:2023-06-23
申请号:CN202310023258.2
申请日:2023-01-06
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F16/332 , G06F40/295 , G06N3/0464 , G06N3/084
Abstract: 本申请公开了一种网络模型训练方法、事件抽取方法、设备及存储介质,该模型训练方法包括:从目标任务对应的训练集中获取第一样本数据,以及从辅助任务对应的训练样本中获取第二样本数据;利用第一样本数据训练第一网络模型,以及利用第二样本数据训练第二网络模型;对第一网络模型和第二网络模型之间的若干共享网络层共享梯度更新,对第一网络模型的非共享网络层按照目标任务进行梯度更新,对第二网络模型的非共享网络层按照辅助任务进行梯度更新,其中共享网络层和非共享网络层是利用梯度相似度提前确定的;将第一网络模型作为最终网络模型。通过上述方式,可以实现让第一网络模型学习第二网络模型中的知识,且训练得到一种最终网络模型。
-
公开(公告)号:CN115994219A
公开(公告)日:2023-04-21
申请号:CN202211545137.6
申请日:2022-11-29
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F16/35 , G06F40/30 , G06F40/216 , G06F40/289 , G06F40/284
Abstract: 本申请公开了一种论辩文本的挖掘方法、装置、电子设备及存储介质,该方法包括:获取待挖掘论辩文本;将待挖掘论辩文本输入到第一挖掘网络,得到第一挖掘网络输出的语义向量和语义隐向量;将语义向量和语义隐向量输入到第二挖掘网络,得到第二挖掘网络输出的待挖掘论辩文本对应的初始挖掘结果;利用代理概率分布对初始挖掘结果进行修正,得到最终挖掘结果。其中,最终挖掘结果表征待挖掘论辩文本中的论辩部件以及论辩部件的类型和/或论辩关系和论辩关系的类型,代理概率分布基于语义隐向量对应的预测标签所确定。通过上述方法,可以使待挖掘论辩文本最终得到的挖掘结果的准确性比较高。
-
公开(公告)号:CN111159411B
公开(公告)日:2023-04-14
申请号:CN201911420245.9
申请日:2019-12-31
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明提供了一种融合知识图谱的文本立场分析方法、系统及存储介质,该文本立场分析方法包括:使用文本向量表示工具将文本与对象表示为向量形式;使用实体链接工具找到文本中出现的实体,并将实体链接至知识图谱中;针对文本中出现的每个实体,建立一个单视角网络对该实体与给定对象以及文本进行建模,得到对应实体的单视角表示向量;将步骤3中到的N个单视角表示向量输入双向循环神经网络中,得到N个多视角融合表示向量;使用多视角注意力网络筛选多视角表示向量,得到最终用于分类的向量;使用分类器对分类的向量进行分类,得到立场类标。本发明的有益效果是:本发明只需要使用者提供(文本,对象,立场)三元组构成的训练数据集,便可自动利用大规模知识图谱中的信息对其进行分析,不需要使用者额外提供背景知识,立场分析性能更佳。
-
公开(公告)号:CN115510852A
公开(公告)日:2022-12-23
申请号:CN202210989377.9
申请日:2022-08-17
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本申请公开了一种关系抽取方法、设备及存储介质,关系抽取方法包括:利用关系抽取模型对当前任务的目标文本进行关系预测,得到每一目标文本对应的第一目标关系,并基于第一目标关系,确定当前代表性目标文本;将当前代表性目标文本、对应的第一目标关系和先验知识关系进行融合,得到与先验知识关系对应的当前关系原型;利用关系抽取模型对当前代表性目标文本和历史代表性目标文本进行记忆重现,得到当前代表性目标文本和历史代表性目标文本对应的第二目标关系;最后,基于第二目标关系调整关系抽取模型的网络参数。通过上述方式,能够提升利用关系抽取模型进行关系抽取得到的实体与实体之间的关系的准确性。
-
公开(公告)号:CN115481619A
公开(公告)日:2022-12-16
申请号:CN202211133233.X
申请日:2022-09-16
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F40/226 , G06F40/30 , G06F40/216 , G06N20/00
Abstract: 本申请公开了一种互动论点对抽取方法及相关设备和存储介质,其中,互动论点对抽取方法包括:获取待抽取互动论点对的两个篇章;选择在第一阶段执行论点抽取的篇章作为第一篇章,并将另一篇章作为第二阶段执行论点抽取的第二篇章;其中,两个篇章任一者选择作为第一篇章,或者,两个篇章分别先后选择作为第一篇章;基于第一篇章执行论点抽取,得到若干第一论点;将若干第一论点分别作为查询论点,并基于查询论点和第二篇章执行论点抽取,得到与查询论点组成互动论点对的第二论点。上述方案,能够提升互动论点对抽取的准确性。
-
公开(公告)号:CN111339310A
公开(公告)日:2020-06-26
申请号:CN201911191509.8
申请日:2019-11-28
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F16/36 , G06F16/951 , G06F16/9536 , G06F40/289 , G06Q50/00
Abstract: 本发明提供了一种面向社交媒体的在线争辩生成方法、系统及存储介质,该在线争辩生成方法包括:步骤1:收集用户在社交媒体上针对热点事件的在线争辩文本数据,对在线争辩文本数据进行人工标注;步骤2:收集与在线争辩文本数据相关的结构化知识与文本知识;步骤3:结合结构化知识与文本知识,利用在线争辩文本数据训练自然语言生成模型;步骤4:在真实争辩文本中,使用自然语言生成模型生成相应的争辩文本,该争辩文本用于改变用户的观点。本发明的有益效果是:本发明结合知识图谱信息,可以充分利用文本信息中的尝试知识,可以生成更流畅、更具有争辩性的文本。
-
公开(公告)号:CN106446264B
公开(公告)日:2019-08-27
申请号:CN201610907526.7
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F16/35
Abstract: 本发明公开了一种文本表示方法及系统,所述文本表示方法包括:获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语评论对象低维连续向量表示;将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。本发明综合考虑词语的社交属性以及词语的评论习惯属性,给予了词向量更丰富的语义信息,提高了词向量表示学习的精准性,获得更加准确的文本分类结果。
-
公开(公告)号:CN104616031B
公开(公告)日:2018-06-12
申请号:CN201510032970.4
申请日:2015-01-22
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明公开了一种迁移学习方法及装置,方法包括:设置迁移学习的相关参数并初始化;开始迁移学习迭代,获得自动化标注数据;当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量;根据样本相对质量确定样本的删除或保留,并确定是否继续迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。本发明的有益效果是:在迁移学习过程中,将学习过程按迁移周期划分,每满一个迁移周期则进行误差检测,根据误差检测确定的样本相对质量筛选样本,由此来剔除低质量样本以达到提高迁移学习中自动标注数据的样本质量的目的,进而提升应用迁移学习方法的系统的准确性。
-
公开(公告)号:CN105653867A
公开(公告)日:2016-06-08
申请号:CN201511031545.X
申请日:2015-12-31
Applicant: 哈尔滨工业大学深圳研究生院
CPC classification number: G06F19/00 , G06K9/6267
Abstract: 本申请公开了一种类噪音检测方法、装置和损失函数计算方法、装置。所述类噪音检测方法对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干个样本其中j=1、2、3、…、k,k为正整数;之后利用来计算训练样本的噪音率Pc(xi)。本申请计算训练样本的噪音率过程中不需要任何先验知识,且计算出来的结果不存在传统技术中对于训练样本的类噪音往往过高估计的现象,因而能更加准确的反应出标注的训练样本其标签错误的概率。
-
-
-
-
-
-
-
-
-