-
公开(公告)号:CN113486665A
公开(公告)日:2021-10-08
申请号:CN202110757350.2
申请日:2021-07-05
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F40/295 , G06F21/62 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种隐私保护文本命名实体识别方法、装置、计算机设备及存储介质,方法包括:接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据;根据多个训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,所述学生模型包括第二预训练网络和第二序列标注层;利用训练好的学生模型对无标签文本数据的命名实体进行预测。本发明将知识蒸馏应用于数据分散的真实场景,在数据可用不可见的前提下,通过无标签的迁移集合,训练出强大的学生模型,从而在隐私保护的前提下,保证学生模型在命名实体识别任务上的泛化性和准确性。
-
公开(公告)号:CN106502394A
公开(公告)日:2017-03-15
申请号:CN201610907518.2
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
CPC classification number: G06F3/015 , G06F17/2765 , G06F2203/011 , G06K9/00503
Abstract: 本发明提供了一种基于脑电信号的词向量计算方法及装置,所述基于脑电信号的词向量计算方法包括:步骤S1,收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;步骤S2,将连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;步骤S3,将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型。本发明通过上述方案提高了词向量计算的准确性。
-
公开(公告)号:CN106446264A
公开(公告)日:2017-02-22
申请号:CN201610907526.7
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F17/30
Abstract: 本发明公开了一种文本表示方法及系统,所述文本表示方法包括:获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语评论对象低维连续向量表示;将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。本发明综合考虑词语的社交属性以及词语的评论习惯属性,给予了词向量更丰富的语义信息,提高了词向量表示学习的精准性,获得更加准确的文本分类结果。
-
公开(公告)号:CN115994518A
公开(公告)日:2023-04-21
申请号:CN202211086035.2
申请日:2022-09-06
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F40/166 , G06F40/216 , G06N3/08
Abstract: 本申请公开了一种回复文本的生成方法、生成装置及计算机可读存储介质,该生成方法包括:获取目标论辩文本以及目标论辩文本对应的背景知识文本;将目标论辩文本划分为多个第一字符,多个第一字符按照从前到后的顺序依次进行排列;根据目标论辩文本以及背景知识文本,生成每个第一字符对应的第一回复字符;根据每个第一字符对应的第一回复字符,生成目标论辩文本对应的目标回复文本。本申请所提供的方法能够提高回复文本的生成准确率。
-
公开(公告)号:CN110222342A
公开(公告)日:2019-09-10
申请号:CN201910511670.2
申请日:2019-06-13
Applicant: 哈尔滨工业大学(深圳)
Abstract: 一种文本情感原因发现装置,该装置包括词-子句层级结构,包含有四部分:词级别编码器、词级别注意力、子句级别编码器、子句级别注意力;其中,词级别编码器,将文本送入词级别编码器,用于捕获词与词之间的序列特征;词级别注意力,通过当前词语的隐状态表示和与之对应的情绪表达词之间的关系来获得词级别的注意力值,用来指示当前词在其所在的子句中所占的重要程度,然后通过权重和累加操作获得每个子句的表示;子句级别注意力,利用一个分类器来获得当前子句是情感原因的概率,并以此作为子句的注意力值,同时将当前子句距离情绪表达词的距离的分布式表示与子句表示拼接;子句级别编码器,通过子句级编码器获取不同子句之间的结构性信息更新子句表示,通过softmax来获得分类特征的概率分布。通过该装置可以帮助机器更加精准地判断人类触发情感的原因。
-
公开(公告)号:CN106502394B
公开(公告)日:2019-06-25
申请号:CN201610907518.2
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明提供了一种基于脑电信号的词向量计算方法及装置,所述基于脑电信号的词向量计算方法包括:步骤S1,收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;步骤S2,将连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;步骤S3,将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型。本发明通过上述方案提高了词向量计算的准确性。
-
公开(公告)号:CN106528529A
公开(公告)日:2017-03-22
申请号:CN201610907157.1
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明提供了一种词语相似度计算方法及装置。所述词语相似度计算方法包括:收集未标注的词典,对所述词典中的词语进行处理,得到待标注词语对;将所述待标注词语对呈现给标注者,供标注者阅读,采集标注者阅读所述待标注词语对时的脑电信号;对采集到的脑电信号进行处理,基于处理后的脑电信号对相应的词语对进行相似度标注,构建基于脑电信号标注的词语相似度语料库。本发明提供的词语相似度计算方法及装置提高了词语相似度计算的准确性。
-
公开(公告)号:CN106491143A
公开(公告)日:2017-03-15
申请号:CN201610906907.3
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
IPC: A61B5/16
CPC classification number: A61B5/164
Abstract: 本发明提供了一种基于脑电信号的真实性判断方法及装置。所述基于脑电信号的真实性判断方法包括:步骤S1,采集被测试者当前行为的脑电信号;步骤S2,将所述被测试者当前行为的脑电信号与预先存储的样本脑电信号相比对,得到比对结果,所述样本脑电信号包括已知真实性内容的脑电信号及已知虚假内容的脑电信号;步骤S3,根据所述比对结果判断被测试者当前行为是否真实。本发明提供的基于脑电信号的真实性判断方法及装置利用脑电信号的人为主观影响小的特性,提高了真实性判断的准确性。
-
公开(公告)号:CN105678325A
公开(公告)日:2016-06-15
申请号:CN201511031284.1
申请日:2015-12-31
Applicant: 哈尔滨工业大学深圳研究生院
CPC classification number: G06K9/6277 , G06K9/00523 , G06K9/0055
Abstract: 本申请提供一种文本情感标注方法、装置及系统,由测试者阅读待分类的文本,采集文本阅读者的脑电信号,再根据脑电信号对该文本进行情感标注,能够从认知神经科学角度真实反映标注者的情绪,具有很高的准确性。并且,本申请不需要对标注人员进行长时间的培训,在开发文本情感分析系统时,能节约大量的时间与资金。
-
公开(公告)号:CN111159411B
公开(公告)日:2023-04-14
申请号:CN201911420245.9
申请日:2019-12-31
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明提供了一种融合知识图谱的文本立场分析方法、系统及存储介质,该文本立场分析方法包括:使用文本向量表示工具将文本与对象表示为向量形式;使用实体链接工具找到文本中出现的实体,并将实体链接至知识图谱中;针对文本中出现的每个实体,建立一个单视角网络对该实体与给定对象以及文本进行建模,得到对应实体的单视角表示向量;将步骤3中到的N个单视角表示向量输入双向循环神经网络中,得到N个多视角融合表示向量;使用多视角注意力网络筛选多视角表示向量,得到最终用于分类的向量;使用分类器对分类的向量进行分类,得到立场类标。本发明的有益效果是:本发明只需要使用者提供(文本,对象,立场)三元组构成的训练数据集,便可自动利用大规模知识图谱中的信息对其进行分析,不需要使用者额外提供背景知识,立场分析性能更佳。
-
-
-
-
-
-
-
-
-