-
公开(公告)号:CN112905754B
公开(公告)日:2024-09-06
申请号:CN201911294260.3
申请日:2019-12-16
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/583 , G06N3/045 , G06N3/0499 , G06N3/044
Abstract: 本发明提供了一种基于人工智能的视觉对话方法、装置、电子设备及存储介质;方法包括:获取与图片对应的对话问题及对话历史;将所述图片和所述对话历史中的至少一个确定为通道信息;根据所述对话问题和所述通道信息,进行追踪处理和定位处理中的至少一种处理,得到对应的通道特征;根据所述通道特征,将所述图片、所述对话问题和所述对话历史进行融合处理,得到融合特征;根据所述融合特征进行预测处理,得到所述对话问题对应的对话答案。通过本发明,能够加深对话问题的多模态表示,提升得到的对话答案的准确性,提升视觉对话的精度。
-
公开(公告)号:CN115035907B
公开(公告)日:2023-03-17
申请号:CN202210602186.2
申请日:2022-05-30
Applicant: 中国科学院自动化研究所
IPC: G10L21/0308 , G10L15/22
Abstract: 本发明提供一种目标说话人分离系统、电子设备及存储介质,系统包括:首先基于掩蔽的预训练策略对多种线索进行联合统一建模,提升模型对缺失线索的推断能力,并增强被扰动线索的表征精度;其次,构建层级化的线索调制模块。分别在初级线索调制模块中引入空间线索定向增强说话人语音;在中级线索调制模块中基于动态线索与听觉信号分量的时间相干性增强说话人语音;并在高级线索调制模块中引入稳态线索进行选择性过滤;最后,充分发挥仿真数据的有监督学习能力和真实混合数据的无监督学习效果,构建多线索约束下更高效的半监督学习方法。将“分离‑再混合”的无监督学习融入到线索驱动目标说话人分离框架下,提升系统在真实嘈杂环境下的自适应能力。
-
公开(公告)号:CN115035907A
公开(公告)日:2022-09-09
申请号:CN202210602186.2
申请日:2022-05-30
Applicant: 中国科学院自动化研究所
IPC: G10L21/0308 , G10L15/22
Abstract: 本发明提供一种目标说话人分离系统、电子设备及存储介质,系统包括:首先基于掩蔽的预训练策略对多种线索进行联合统一建模,提升模型对缺失线索的推断能力,并增强被扰动线索的表征精度;其次,构建层级化的线索调制模块。分别在初级线索调制模块中引入空间线索定向增强说话人语音;在中级线索调制模块中基于动态线索与听觉信号分量的时间相干性增强说话人语音;并在高级线索调制模块中引入稳态线索进行选择性过滤;最后,充分发挥仿真数据的有监督学习能力和真实混合数据的无监督学习效果,构建多线索约束下更高效的半监督学习方法。将“分离‑再混合”的无监督学习融入到线索驱动目标说话人分离框架下,提升系统在真实嘈杂环境下的自适应能力。
-
公开(公告)号:CN112466306A
公开(公告)日:2021-03-09
申请号:CN201910766155.9
申请日:2019-08-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种会议纪要生成方法、装置、计算机设备及存储介质,所述方法包括:调用语音采集设备采集会议过程的全程语音,调用图像采集设备采集会议过程的全程图像;从全程语音中提取单通道语音,从单通道语音中分别提取多个语音分段数据流;针对每个语音分段数据流,从全程图像中截取与该语音分段数据流对应的图像分段数据流;将每个语音分段数据流以及对应的图像分段数据流输入语音发出者检测模型,提取多个对应的语音发出者身份信息以及位置信息;将每个语音分段数据流,以及对应的语音发出者身份信息、位置信息输入语音识别模型,提取多个对应的语音转录文字;依次记录每个语音转录文字以及对应的语音发出者身份信息,生成会议纪要。
-
公开(公告)号:CN109800294B
公开(公告)日:2020-10-13
申请号:CN201910014369.0
申请日:2019-01-08
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明属于人工智能及视觉对话领域,具体涉及了一种基于物理环境博弈的自主进化智能对话方法、系统、装置,旨在解决智能系统计算消耗大、收敛速度慢、处理信息精确度低的问题。本发明方法包括:获取待处理图像及对应问题文本;采用优化的对话模型将图片编码为图片向量,问题文本编码为问句向量;基于图片向量及问句向量生成状态向量;解码状态向量获得应答文本并输出。其中,对话模型的优化过程需引入判别器,对话模型与判别器交替优化直至对话模型的混合损失函数和判别器的损失函数值不再下降或低于预设值,完成模型优化。本发明方法与传统方法相比,计算消耗小、收敛速度快,进一步提高了处理信息的精确度。
-
公开(公告)号:CN107544960B
公开(公告)日:2020-01-14
申请号:CN201710755961.7
申请日:2017-08-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于自然语言处理领域,具体涉及一种基于变量绑定和关系激活的自动问答方法。旨在解决现有技术难以模拟人脑精确推理出结果的问题。本发明的方法包括对文本和问句进行编码,得到文本的语义信息和问句的查询语句,识别文本中的实体,并对实体进行映射和跟踪,利用第一动作网络理解语义信息,确定实体在逻辑规则中的位置,利用第二动作网络激活实体关系,将实体关系写入逻辑规则,得到意象图式,利用查询语句对意象图式进行检索,根据检索结果生成答案词。本发明将实体位置和实体关系写入逻辑规则之后形成意象图式,能够作为先验知识存在,无需依赖大量的数据,即可产生与人脑类似的变量和关系序列,产生正确答案。
-
公开(公告)号:CN110503940A
公开(公告)日:2019-11-26
申请号:CN201910631894.7
申请日:2019-07-12
Applicant: 中国科学院自动化研究所
IPC: G10L15/02 , G10L15/04 , G10L21/007 , G10L21/02 , G10L25/27
Abstract: 本发明实施例涉及一种语音增强方法、装置、存储介质、电子设备,所述方法包括:调用语音采集设备,采集当前环境中的语音;按照预设的语音处理算法,对所述语音进行处理,得到单通道语音;对所述单通道语音进行断句切分,得到包含预设类型声音的语音分段数据流;从所述语音分段数据流中提取语音特征;将所述语音特征输入预设的语音增强网络模型中,得到与所述语音特征对应的增强语音;将所述增强语音合成为语音段。由此,可以实现多场景的应用,避免了噪声的影响,考虑到语音特性,避免引入失真,从而避免对语音造成损伤。
-
-
-
-
-
-