-
公开(公告)号:CN106502394A
公开(公告)日:2017-03-15
申请号:CN201610907518.2
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
CPC classification number: G06F3/015 , G06F17/2765 , G06F2203/011 , G06K9/00503
Abstract: 本发明提供了一种基于脑电信号的词向量计算方法及装置,所述基于脑电信号的词向量计算方法包括:步骤S1,收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;步骤S2,将连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;步骤S3,将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型。本发明通过上述方案提高了词向量计算的准确性。
-
公开(公告)号:CN106446264A
公开(公告)日:2017-02-22
申请号:CN201610907526.7
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F17/30
Abstract: 本发明公开了一种文本表示方法及系统,所述文本表示方法包括:获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语评论对象低维连续向量表示;将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。本发明综合考虑词语的社交属性以及词语的评论习惯属性,给予了词向量更丰富的语义信息,提高了词向量表示学习的精准性,获得更加准确的文本分类结果。
-
公开(公告)号:CN106446264B
公开(公告)日:2019-08-27
申请号:CN201610907526.7
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
IPC: G06F16/35
Abstract: 本发明公开了一种文本表示方法及系统,所述文本表示方法包括:获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语评论对象低维连续向量表示;将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。本发明综合考虑词语的社交属性以及词语的评论习惯属性,给予了词向量更丰富的语义信息,提高了词向量表示学习的精准性,获得更加准确的文本分类结果。
-
公开(公告)号:CN104616031B
公开(公告)日:2018-06-12
申请号:CN201510032970.4
申请日:2015-01-22
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明公开了一种迁移学习方法及装置,方法包括:设置迁移学习的相关参数并初始化;开始迁移学习迭代,获得自动化标注数据;当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量;根据样本相对质量确定样本的删除或保留,并确定是否继续迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。本发明的有益效果是:在迁移学习过程中,将学习过程按迁移周期划分,每满一个迁移周期则进行误差检测,根据误差检测确定的样本相对质量筛选样本,由此来剔除低质量样本以达到提高迁移学习中自动标注数据的样本质量的目的,进而提升应用迁移学习方法的系统的准确性。
-
公开(公告)号:CN105653867A
公开(公告)日:2016-06-08
申请号:CN201511031545.X
申请日:2015-12-31
Applicant: 哈尔滨工业大学深圳研究生院
CPC classification number: G06F19/00 , G06K9/6267
Abstract: 本申请公开了一种类噪音检测方法、装置和损失函数计算方法、装置。所述类噪音检测方法对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干个样本其中j=1、2、3、…、k,k为正整数;之后利用来计算训练样本的噪音率Pc(xi)。本申请计算训练样本的噪音率过程中不需要任何先验知识,且计算出来的结果不存在传统技术中对于训练样本的类噪音往往过高估计的现象,因而能更加准确的反应出标注的训练样本其标签错误的概率。
-
公开(公告)号:CN104616031A
公开(公告)日:2015-05-13
申请号:CN201510032970.4
申请日:2015-01-22
Applicant: 哈尔滨工业大学深圳研究生院
CPC classification number: G06K9/6256 , G06K9/6262
Abstract: 本发明公开了一种迁移学习方法及装置,方法包括:设置迁移学习的相关参数并初始化;开始迁移学习迭代,获得自动化标注数据;当迭代次数满足迭代周期,对该迭代周期内作为样本的自动化标注数据进行误差检测,确定该迭代周期的样本相对质量;根据样本相对质量确定样本的删除或保留,并确定是否继续迁移学习迭代,当终止迁移学习迭代,输出保留的样本和迁移分类器。本发明的有益效果是:在迁移学习过程中,将学习过程按迁移周期划分,每满一个迁移周期则进行误差检测,根据误差检测确定的样本相对质量筛选样本,由此来剔除低质量样本以达到提高迁移学习中自动标注数据的样本质量的目的,进而提升应用迁移学习方法的系统的准确性。
-
公开(公告)号:CN106502394B
公开(公告)日:2019-06-25
申请号:CN201610907518.2
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明提供了一种基于脑电信号的词向量计算方法及装置,所述基于脑电信号的词向量计算方法包括:步骤S1,收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;步骤S2,将连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;步骤S3,将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型。本发明通过上述方案提高了词向量计算的准确性。
-
公开(公告)号:CN106528529A
公开(公告)日:2017-03-22
申请号:CN201610907157.1
申请日:2016-10-18
Applicant: 哈尔滨工业大学深圳研究生院
Abstract: 本发明提供了一种词语相似度计算方法及装置。所述词语相似度计算方法包括:收集未标注的词典,对所述词典中的词语进行处理,得到待标注词语对;将所述待标注词语对呈现给标注者,供标注者阅读,采集标注者阅读所述待标注词语对时的脑电信号;对采集到的脑电信号进行处理,基于处理后的脑电信号对相应的词语对进行相似度标注,构建基于脑电信号标注的词语相似度语料库。本发明提供的词语相似度计算方法及装置提高了词语相似度计算的准确性。
-
公开(公告)号:CN105678325A
公开(公告)日:2016-06-15
申请号:CN201511031284.1
申请日:2015-12-31
Applicant: 哈尔滨工业大学深圳研究生院
CPC classification number: G06K9/6277 , G06K9/00523 , G06K9/0055
Abstract: 本申请提供一种文本情感标注方法、装置及系统,由测试者阅读待分类的文本,采集文本阅读者的脑电信号,再根据脑电信号对该文本进行情感标注,能够从认知神经科学角度真实反映标注者的情绪,具有很高的准确性。并且,本申请不需要对标注人员进行长时间的培训,在开发文本情感分析系统时,能节约大量的时间与资金。
-
-
-
-
-
-
-
-