-
公开(公告)号:CN112466306B
公开(公告)日:2023-07-04
申请号:CN201910766155.9
申请日:2019-08-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种会议纪要生成方法、装置、计算机设备及存储介质,所述方法包括:调用语音采集设备采集会议过程的全程语音,调用图像采集设备采集会议过程的全程图像;从全程语音中提取单通道语音,从单通道语音中分别提取多个语音分段数据流;针对每个语音分段数据流,从全程图像中截取与该语音分段数据流对应的图像分段数据流;将每个语音分段数据流以及对应的图像分段数据流输入语音发出者检测模型,提取多个对应的语音发出者身份信息以及位置信息;将每个语音分段数据流,以及对应的语音发出者身份信息、位置信息输入语音识别模型,提取多个对应的语音转录文字;依次记录每个语音转录文字以及对应的语音发出者身份信息,生成会议纪要。
-
公开(公告)号:CN114333896A
公开(公告)日:2022-04-12
申请号:CN202011027680.8
申请日:2020-09-25
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
IPC: G10L21/0272 , G10L21/0308 , G10L25/03 , G10L25/30 , G06V40/16
Abstract: 本申请实施例提供了一种语音分离方法,涉及电子设备领域。通过获取用户在说话过程中包含用户语音的音频信息及包含用户脸部的视频信息,并对所述音频信息进行编码得到混合声学特征,再从所述视频信息中提取所述用户的视觉语义特征,再将所述混合声学特征和所述视觉语义特征输入至预设视觉语音分离网络,得到所述用户的声学特征,最后对所述用户的声学特征进行解码,得到所述用户的语音信号。本申请实施例还提供了一种电子设备、芯片及计算机可读存储介质。本申请基于视觉语义特征对混合语音进行语音分离,可以从环境噪声干扰中准确地分离出目标说话者的语音。
-
公开(公告)号:CN110503940B
公开(公告)日:2021-08-31
申请号:CN201910631894.7
申请日:2019-07-12
Applicant: 中国科学院自动化研究所
IPC: G10L15/02 , G10L15/04 , G10L21/007 , G10L21/02 , G10L25/27
Abstract: 本发明实施例涉及一种语音增强方法、装置、存储介质、电子设备,所述方法包括:调用语音采集设备,采集当前环境中的语音;按照预设的语音处理算法,对所述语音进行处理,得到单通道语音;对所述单通道语音进行断句切分,得到包含预设类型声音的语音分段数据流;从所述语音分段数据流中提取语音特征;将所述语音特征输入预设的语音增强网络模型中,得到与所述语音特征对应的增强语音;将所述增强语音合成为语音段。由此,可以实现多场景的应用,避免了噪声的影响,考虑到语音特性,避免引入失真,从而避免对语音造成损伤。
-
公开(公告)号:CN110534123A
公开(公告)日:2019-12-03
申请号:CN201910663257.8
申请日:2019-07-22
Applicant: 中国科学院自动化研究所
IPC: G10L21/0208 , G10L25/30 , G10L15/04 , G10L15/20
Abstract: 本发明实施例涉及一种语音增强方法、装置、存储介质、电子设备,所述方法包括:调用语音采集设备,采集当前环境中的语音;按照预设的语音处理算法,对所述语音进行处理,得到单通道语音;对所述单通道语音进行断句切分,得到包含预设类型声音的语音分段数据流;将所述语音分段数据流输入预设的语音增强网络模型中,得到与所述语音分段数据流对应的增强语音;将所述增强语音合成为语音段。由此,可以实现多场景的应用,避免了噪声的影响,考虑到语音特性,避免引入失真,从而避免对语音造成损伤。
-
公开(公告)号:CN106126596B
公开(公告)日:2019-08-23
申请号:CN201610447676.4
申请日:2016-06-20
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F17/27
Abstract: 本发明提供了一种基于层次化记忆网络的问答方法,首先进行句粒度记忆编码,并在问题语义编码的刺激下,通过多轮迭代的注意力机制完成句粒度记忆单元的信息推理,通过k最大采样对句子进行筛选,在句粒度记忆编码的基础上还进行词粒度记忆编码,即在两个层次进行记忆编码,形成层次化的记忆编码,利用句粒度和词粒度记忆单元联合预测输出词概率分布,提高了自动问答的准确性,有效解决了低频词和未登录词的答案选择问题。
-
公开(公告)号:CN109800294A
公开(公告)日:2019-05-24
申请号:CN201910014369.0
申请日:2019-01-08
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明属于人工智能及视觉对话领域,具体涉及了一种基于物理环境博弈的自主进化智能对话方法、系统、装置,旨在解决智能系统计算消耗大、收敛速度慢、处理信息精确度低的问题。本发明方法包括:获取待处理图像及对应问题文本;采用优化的对话模型将图片编码为图片向量,问题文本编码为问句向量;基于图片向量及问句向量生成状态向量;解码状态向量获得应答文本并输出。其中,对话模型的优化过程需引入判别器,对话模型与判别器交替优化直至对话模型的混合损失函数和判别器的损失函数值不再下降或低于预设值,完成模型优化。本发明方法与传统方法相比,计算消耗小、收敛速度快,进一步提高了处理信息的精确度。
-
公开(公告)号:CN109448749A
公开(公告)日:2019-03-08
申请号:CN201811558212.6
申请日:2018-12-19
Applicant: 中国科学院自动化研究所
IPC: G10L21/0208 , G10L25/30
Abstract: 本发明属于语音分离技术领域,具体涉及了一种基于有监督学习听觉注意的语音提取方法、系统、装置,旨在为了解决混叠语音提取收敛过程慢,进一步提高提取的准确性。本发明方法包括:将原始混叠语音信号转换为二维时间-频率信号表示;稀疏化并将其中的时频单元的强度信息映射到离散强度等级,基于强度等级信息二次稀疏化;采用时间编码的方式转换为脉冲信号;采用训练好的目标脉冲提取网络提取目标脉冲;将目标脉冲转换成目标语音的时间-频率表示并转换得到目标语音。本发明通过不同的时间编码方式将刺激转换成脉冲序列,有效提高了脉冲神经网络分离语音的准确性;通过改进的远程有监督方法对脉冲神经网络进行训练,大大提高了脉冲神经网络的收敛速度。
-
公开(公告)号:CN104408153B
公开(公告)日:2018-07-31
申请号:CN201410729347.X
申请日:2014-12-03
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了种基于多粒度主题模型的短文本哈希学习方法,采用外部大规模语料库训练候选主题模型,可依据数据集类型选择最优的多粒度主题特征,并赋予权重,由该方法选择出来的多粒度主题模型有较好的区分度,在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习;本发明方法采用了两种基于多主题模型的哈希学习策略,分别为多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法,以及多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法,较基于单粒度主题特征方法,在精度和召回率等多项测评指标上均有大幅度提升。
-
公开(公告)号:CN104657350B
公开(公告)日:2017-06-09
申请号:CN201510096518.4
申请日:2015-03-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供的融合隐式语义特征的短文本哈希学习方法,包括:将训练文本通过哈希损失函数进行降维二值化生成低维二值码;从训练文本中获取词特征和位置特征,根据词特征和位置特征通过查表获取对应的词向量和位置向量;将词向量和位置向量通过卷积神经网络模型进行耦合,得到训练文本的隐式语义特征;将低维二值码进行训练得到更新的卷积神经网络模型;利用更新的卷积神经网络模型对训练文本进行编码生成语义哈希码,并将查询文本通过卷积神经网络模型对语义哈希码进行映射生成查询文本的哈希码;查询文本的哈希码在二值汉明空间中对语义哈希码进行匹配,得到查询文本的语义相似文本。本发明可以获得查询文本的语义相似文本。
-
公开(公告)号:CN106126596A
公开(公告)日:2016-11-16
申请号:CN201610447676.4
申请日:2016-06-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于层次化记忆网络的问答方法,首先进行句粒度记忆编码,并在问题语义编码的刺激下,通过多轮迭代的注意力机制完成句粒度记忆单元的信息推理,通过k最大采样对句子进行筛选,在句粒度记忆编码的基础上还进行词粒度记忆编码,即在两个层次进行记忆编码,形成层次化的记忆编码,利用句粒度和词粒度记忆单元联合预测输出词概率分布,提高了自动问答的准确性,有效解决了低频词和未登录词的答案选择问题。
-
-
-
-
-
-
-
-
-