-
公开(公告)号:CN104915386B
公开(公告)日:2018-04-27
申请号:CN201510270028.1
申请日:2015-05-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于深度语义特征学习的短文本聚类方法,包括:通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示,并对得到的低维实值向量进行二值化,做为卷积神经网络结构的监督信息进行误差反向传播训练模型;采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征;得到深度语义特征表示后,采用传统的K均值算法对文本进行聚类。本发明的方法不需要额外的自然语言处理等专业知识,设计简单且可学习深度的语义特征,并且,学习到的语义特征具有无偏性,可更有效地达到较好的聚类性能。
-
公开(公告)号:CN104657350A
公开(公告)日:2015-05-27
申请号:CN201510096518.4
申请日:2015-03-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供的融合隐式语义特征的短文本哈希学习方法,包括:将训练文本通过哈希损失函数进行降维二值化生成低维二值码;从训练文本中获取词特征和位置特征,根据词特征和位置特征通过查表获取对应的词向量和位置向量;将词向量和位置向量通过卷积神经网络模型进行耦合,得到训练文本的隐式语义特征;将低维二值码进行训练得到更新的卷积神经网络模型;利用更新的卷积神经网络模型对训练文本进行编码生成语义哈希码,并将查询文本通过卷积神经网络模型对语义哈希码进行映射生成查询文本的哈希码;查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,得到查询文本的语义相似文本。本发明可以获得查询文本的语义相似文本。
-
公开(公告)号:CN104408153A
公开(公告)日:2015-03-11
申请号:CN201410729347.X
申请日:2014-12-03
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
CPC classification number: G06F17/30628 , G06F17/30663
Abstract: 本发明公开了一种基于多粒度主题模型的短文本哈希学习方法,采用外部大规模语料库训练候选主题模型,可依据数据集类型选择最优的多粒度主题特征,并赋予权重,由该方法选择出来的多粒度主题模型有较好的区分度,在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习;本发明方法采用了两种基于多主题模型的哈希学习策略,分别为多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法,以及多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法,较基于单粒度主题特征方法,在精度和召回率等多项测评指标上均有大幅度提升。
-
公开(公告)号:CN119227818A
公开(公告)日:2024-12-31
申请号:CN202411758966.1
申请日:2024-12-03
Applicant: 中国科学院自动化研究所
IPC: G06N5/04
Abstract: 本发明提供一种大语言模型垂直领域多任务客观题评测集自动生成方法,涉及人工智能技术领域,方法包括:针对垂直领域的纯文本数据集中每一个文本,根据预设的多个任务类型,调用问题求解器对文本进行任务合适性判别,并在判别结果为合适时生成任务类型的至少一个初始客观题题干;针对初始客观题题干进行歧义检测,并调用问题求解器对存在歧义的所述初始客观题题干进行改写,得到改写客观题题干;最后调用问题求解器对每个改写客观题题干生成对应的客观题选项、客观题答案以及客观题答案解析,作为对应任务类型的客观题评测集。通过本申请,解决现有技术中大模型评测数据集构建过程耗时耗力、无法实现特定垂直领域评测数据集自动生成的问题。
-
公开(公告)号:CN116312502A
公开(公告)日:2023-06-23
申请号:CN202211735842.2
申请日:2022-12-30
Applicant: 中国科学院自动化研究所
IPC: G10L15/183 , G06F18/214 , G06F18/24 , G06F18/25 , G06N3/0464 , G10L15/14 , G10L15/16 , G10L15/06 , G10L19/24
Abstract: 本发明提供一种基于顺序采样分块机制的端到端流式语音识别方法及装置,包括:针对初始语音识别模型中的每个特征提取网络,将前一个特征提取网络中SSC‑MHSA模块输出的多个语音样本的第二声学特征信息,输入特征提取网络中C‑MHSA模块,得到多个语音样本的第一声学特征信息;将多个语音样本的第一声学特征信息,输入特征提取网络的SSC‑MHSA模块,得到多个语音样本的第二声学特征信息;将初始语音识别模型中最后一个特征提取网络输出的多个语音样本的第二声学特征信息,输入初始语音识别模型中的解码器网络,得到多个语音样本的预测信息;基于多个语音样本的预测信息和标签信息,更新初始语音识别模型的模型参数,以得到性能较好的流式语音识别模型。
-
公开(公告)号:CN116129885A
公开(公告)日:2023-05-16
申请号:CN202211679705.1
申请日:2022-12-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种说话人确认模型训练方法、装置及设备,该方法包括:获取一个训练批次中全部语音样本对应的语音特征、以及全部语音样本对应的标签信息;将语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到语音特征对应的目标全局特征和目标局部特征;基于目标全局特征和所述目标局部特征,确定全部语音样本对应的预测信息;根据标签信息和预测信息,更新初始说话人确认模型的模型参数,以得到说话人确认模型。本发明提供的说话人确认模型训练方法、装置及设备用于使TDNN网络和Transformer网络并行学习,提升说话人确认模型的性能。
-
公开(公告)号:CN104408153B
公开(公告)日:2018-07-31
申请号:CN201410729347.X
申请日:2014-12-03
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了种基于多粒度主题模型的短文本哈希学习方法,采用外部大规模语料库训练候选主题模型,可依据数据集类型选择最优的多粒度主题特征,并赋予权重,由该方法选择出来的多粒度主题模型有较好的区分度,在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习;本发明方法采用了两种基于多主题模型的哈希学习策略,分别为多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法,以及多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法,较基于单粒度主题特征方法,在精度和召回率等多项测评指标上均有大幅度提升。
-
公开(公告)号:CN104391942B
公开(公告)日:2017-12-01
申请号:CN201410686237.X
申请日:2014-11-25
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于语义图谱的短文本特征扩展方法,包括以下步骤:利用短文本训练数据集进行主题建模,抽取主题词分布;对主题词分布进行重排序;构建候选关键词词典和主题‑关键词语义图谱;基于链接分析的方法计算候选关键词和种子关键词的综合相似度评价,选择最相似的候选关键词完成对短文本的扩展。本发明方法较基于语言模型的短文本特征表示方法操作简单,执行效率高,而且充分利用关键词之间的语义关联信息,较传统的基于词袋模型的短文本特征表示方法,有效缓解了数据稀疏性问题和语义敏感性问题,不依赖于外部大规模辅助训练语料或者搜索引擎。
-
公开(公告)号:CN104657350B
公开(公告)日:2017-06-09
申请号:CN201510096518.4
申请日:2015-03-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供的融合隐式语义特征的短文本哈希学习方法,包括:将训练文本通过哈希损失函数进行降维二值化生成低维二值码;从训练文本中获取词特征和位置特征,根据词特征和位置特征通过查表获取对应的词向量和位置向量;将词向量和位置向量通过卷积神经网络模型进行耦合,得到训练文本的隐式语义特征;将低维二值码进行训练得到更新的卷积神经网络模型;利用更新的卷积神经网络模型对训练文本进行编码生成语义哈希码,并将查询文本通过卷积神经网络模型对语义哈希码进行映射生成查询文本的哈希码;查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,得到查询文本的语义相似文本。本发明可以获得查询文本的语义相似文本。
-
公开(公告)号:CN104834747A
公开(公告)日:2015-08-12
申请号:CN201510271672.0
申请日:2015-05-25
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/30705 , G06N3/02
Abstract: 本发明是一种基于卷积神经网络的短文本分类方法,该卷积神经网络共分五层:第一层,获取短文本中的多尺度候选语义单元;第二层,计算每一个候选语义单元与向量空间中所有词表示向量的欧式距离并找出最近邻的词表示,选择所有满足欧式距离预设阈值的最近邻词表示构建语义扩展矩阵;第三层,用多个不同宽度、不同权值的核矩阵分别对短文本的映射矩阵和语义扩展矩阵进行二维卷积运算提取局部卷积特征并生成多层局部卷积特征矩阵;第四层,对多层局部卷积特征矩阵进行下采样并得到多层全局特征矩阵,将所述全局特征矩阵进行非线性正切变换并转换为定长的语义特征向量;第五层,将语义特征向量赋予分类器,对短文本的类别进行预测。
-
-
-
-
-
-
-
-
-