-
公开(公告)号:CN112397089B
公开(公告)日:2023-07-04
申请号:CN201910766157.8
申请日:2019-08-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种语音发出者身份识别方法、装置、计算机设备及存储介质,所述方法包括:调用语音采集设备采集会议过程的全程语音,调用图像采集设备采集会议过程的全程图像;从全程语音中提取单通道语音,从单通道语音中分别提取多个语音分段数据流;针对每个语音分段数据流,从全程图像中截取与该语音分段数据流对应的图像分段数据流;将每个语音分段数据流输入听觉处理子网络模型中,得到多个对应听觉隐层特征,将每个图像分段数据流输入视觉处理子网络模型中,得到多个对应视觉隐层特征;选择听觉隐层特征以及视觉隐层特征进行融合,根据融合结果识别语音发出者身份。
-
公开(公告)号:CN110534123B
公开(公告)日:2022-04-01
申请号:CN201910663257.8
申请日:2019-07-22
Applicant: 中国科学院自动化研究所
IPC: G10L21/0208 , G10L25/30 , G10L15/04 , G10L15/20
Abstract: 本发明实施例涉及一种语音增强方法、装置、存储介质、电子设备,所述方法包括:调用语音采集设备,采集当前环境中的语音;按照预设的语音处理算法,对所述语音进行处理,得到单通道语音;对所述单通道语音进行断句切分,得到包含预设类型声音的语音分段数据流;将所述语音分段数据流输入预设的语音增强网络模型中,得到与所述语音分段数据流对应的增强语音;将所述增强语音合成为语音段。由此,可以实现多场景的应用,避免了噪声的影响,考虑到语音特性,避免引入失真,从而避免对语音造成损伤。
-
公开(公告)号:CN109448749B
公开(公告)日:2022-02-15
申请号:CN201811558212.6
申请日:2018-12-19
Applicant: 中国科学院自动化研究所
IPC: G10L21/0208 , G10L25/30
Abstract: 本发明属于语音分离技术领域,具体涉及了一种基于有监督学习听觉注意的语音提取方法、系统、装置,旨在为了解决混叠语音提取收敛过程慢,进一步提高提取的准确性。本发明方法包括:将原始混叠语音信号转换为二维时间‑频率信号表示;稀疏化并将其中的时频单元的强度信息映射到离散强度等级,基于强度等级信息二次稀疏化;采用时间编码的方式转换为脉冲信号;采用训练好的目标脉冲提取网络提取目标脉冲;将目标脉冲转换成目标语音的时间‑频率表示并转换得到目标语音。本发明通过不同的时间编码方式将刺激转换成脉冲序列,有效提高了脉冲神经网络分离语音的准确性;通过改进的远程有监督方法对脉冲神经网络进行训练,大大提高了脉冲神经网络的收敛速度。
-
公开(公告)号:CN112215912A
公开(公告)日:2021-01-12
申请号:CN202011093264.8
申请日:2020-10-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于数据处理领域,具体涉及了一种基于动态视觉传感器的显著性图生成系统、方法和装置,旨在解决的问题。本发明包括:通过动态视觉传感器获取事件数据,并通过目标检测网络中的每个神经元将DVS事件数据和从相互关联的神经元获取的信息进行累加缓存,每隔预设的时间通过激活函数获取神经元膜电位,并根据神经元膜电位与预设的饱和阈值的大小关系输出脉冲信号,前一时刻的膜电位u(t0)经过衰减与当前接收的激励进行累加,结果用于脉冲信号和膜电位更新判断。本发明使得目标检测网络阵列生成的显著性图排除了冗余的背景信息,提高了目标检测的可信度和精确度,避免出现误判。
-
公开(公告)号:CN107544960A
公开(公告)日:2018-01-05
申请号:CN201710755961.7
申请日:2017-08-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于自然语言处理领域,具体涉及一种基于变量绑定和关系激活的推理办法。旨在解决现有技术难以模拟人脑精确推理出结果的问题。本发明的方法包括对文本和问句进行编码,得到文本的语义信息和问句的查询语句,识别文本中的实体,并对实体进行映射和跟踪,利用第一动作网络理解语义信息,确定实体在逻辑规则中的位置,利用第二动作网络激活实体关系,将实体关系写入逻辑规则,得到意象图式,利用查询语句对意象图式进行检索,根据检索结果生成答案词。本发明将实体位置和实体关系写入逻辑规则之后形成意象图式,能够作为先验知识存在,无需依赖大量的数据,即可产生与人脑类似的变量和关系序列,产生正确答案。
-
公开(公告)号:CN114333767A
公开(公告)日:2022-04-12
申请号:CN202011055886.1
申请日:2020-09-29
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
Abstract: 本申请提供一种发声者语音抽取方法、装置、存储介质及电子设备,用以提高语音识别的实时性,以便更好的适应实际应用场景。该方法包括:采集环境中的混合语音,所述混合语音包括目标发声者的语音;基于所述混合语音,获得第一语音时域特征信息;基于已有的所述目标发声者的声纹信息,从所述第一语音时域特征信息中实时抽取所述目标发声者的第二语音时域特征信息;基于所述第二语音时域特征信息,获得所述目标发声者的语音段。
-
公开(公告)号:CN112905754A
公开(公告)日:2021-06-04
申请号:CN201911294260.3
申请日:2019-12-16
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/583 , G06N3/04
Abstract: 本发明提供了一种基于人工智能的视觉对话方法、装置、电子设备及存储介质;方法包括:获取与图片对应的对话问题及对话历史;将所述图片和所述对话历史中的至少一个确定为通道信息;根据所述对话问题和所述通道信息,进行追踪处理和定位处理中的至少一种处理,得到对应的通道特征;根据所述通道特征,将所述图片、所述对话问题和所述对话历史进行融合处理,得到融合特征;根据所述融合特征进行预测处理,得到所述对话问题对应的对话答案。通过本发明,能够加深对话问题的多模态表示,提升得到的对话答案的准确性,提升视觉对话的精度。
-
公开(公告)号:CN112397089A
公开(公告)日:2021-02-23
申请号:CN201910766157.8
申请日:2019-08-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种语音发出者身份识别方法、装置、计算机设备及存储介质,所述方法包括:调用语音采集设备采集会议过程的全程语音,调用图像采集设备采集会议过程的全程图像;从全程语音中提取单通道语音,从单通道语音中分别提取多个语音分段数据流;针对每个语音分段数据流,从全程图像中截取与该语音分段数据流对应的图像分段数据流;将每个语音分段数据流输入听觉处理子网络模型中,得到多个对应听觉隐层特征,将每个图像分段数据流输入视觉处理子网络模型中,得到多个对应视觉隐层特征;选择听觉隐层特征以及视觉隐层特征进行融合,根据融合结果识别语音发出者身份。
-
公开(公告)号:CN104915386B
公开(公告)日:2018-04-27
申请号:CN201510270028.1
申请日:2015-05-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于深度语义特征学习的短文本聚类方法,包括:通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示,并对得到的低维实值向量进行二值化,做为卷积神经网络结构的监督信息进行误差反向传播训练模型;采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征;得到深度语义特征表示后,采用传统的K均值算法对文本进行聚类。本发明的方法不需要额外的自然语言处理等专业知识,设计简单且可学习深度的语义特征,并且,学习到的语义特征具有无偏性,可更有效地达到较好的聚类性能。
-
公开(公告)号:CN104915448A
公开(公告)日:2015-09-16
申请号:CN201510372795.3
申请日:2015-06-30
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/30533 , G06N3/08
Abstract: 一种基于层次卷积网络的实体与段落链接方法,包括:利用卷积神经网络通过词向量化表示转化成句子向量化表示;利用句子向量化表示再次经过卷积神经网络并考虑所述句子次序信息得到段落向量化表示;句子向量化表示和段落向量化表示通过Softmax输出,借助已有实体作为监督信息进行所述卷积神经网络模型的训练;同时,考虑段落语义向量特征与实体语义向量特征之间的pair-wise相似度信息进一步改善卷积神经网络模型的训练;给定一个测试描述段落,利用训练好的神经网络模型进行深层语义特征抽取得到测试段落的向量化表示,然后基于此语义表示经过Softmax输出可直接链接到目标实体上。
-
-
-
-
-
-
-
-
-