-
公开(公告)号:CN113436629A
公开(公告)日:2021-09-24
申请号:CN202110997178.8
申请日:2021-08-27
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种语音控制方法、装置、电子设备及存储介质,所述语音控制方法,包括以下步骤:获取已知唤醒词的音节;确定与所述唤醒词对应的非唤醒词的音节;根据所述唤醒词的音节、所述非唤醒词的音节和预设的垃圾词信息构建唤醒词解码网络,以根据所述唤醒词解码网络对输入的语音进行解码,并根据解码结果确定是否执行唤醒操作,本申请在解码网络中引入非唤醒词的音节从而统一描述非唤醒词,能够降低非唤醒词引起的误唤醒率。
-
公开(公告)号:CN113421592A
公开(公告)日:2021-09-21
申请号:CN202110983510.5
申请日:2021-08-25
Applicant: 中国科学院自动化研究所
IPC: G10L25/51
Abstract: 本公开涉及一种篡改音频的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并分别通过低通滤波器和高通滤波器提取所述待检测信号的低频成分和高频成分;分别对所述低频成分和所述高频成分进行离散小波变换,并计算经过所述离散小波变换之后的低频成分对应的低频小波系数和经过所述离散小波变换之后的高频成分对应的高频小波系数;根据所述低频小波系数和所述高频小波系数,计算高低频能量比特征;根据所述高低频能量比特征对所述待检测信号进行篡改音频检测。采用上述技术手段,可以解决现有技术中,现有的检测篡改音频的方法的应用场景受限,在一些场景无法使用的问题。
-
公开(公告)号:CN113380235A
公开(公告)日:2021-09-10
申请号:CN202110931452.1
申请日:2021-08-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于知识迁移的电话信道虚假语音鉴别方法,包括:将利用麦克风信道语音数据训练而得的鉴别模型作为麦克风信道模型,将利用电话信道语音训练数据训练得到的声学模型视为电话信道模型;在所述电话信道模型训练过程中,应用所述麦克风信道模型指导所述电话信道模型进行训练,使得所述电话信道模型模仿所述麦克风信道模型的行为,即迫使所述电话信道模型的后验概率分布逼近所述麦克风信道模型的后验概率分布;应用训练后的电话信道模型对电话信道语音进行预测,得到电话信道语音的真假判别结果。
-
公开(公告)号:CN113297369A
公开(公告)日:2021-08-24
申请号:CN202110846067.7
申请日:2021-07-26
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/36 , G06F40/295
Abstract: 本发明提供基于知识图谱子图检索的智能问答系统,包括:所述问句处理模块识别用户输入问句中的实体,根据所述实体构建输入问句的句法依存树,得到实体之间的关系谓词;利用知识图谱嵌入得到知识图谱中三元组的低维稠密向量表示;将得到的用户输入问句中的实体映射到知识图谱中,得到每个实体在知识图谱中对应的候选实体列表,选择起点实体,引入关系谓词,在知识图谱中检索与之相匹配的知识图谱子图,再引入实体和关系谓词继续检索,迭代至全部的实体和关系谓词都引入完毕,输出检索到的知识图谱子图;再利用知识图谱子图过滤将检索得到的知识图谱子图进行剪枝;最后,输出相应结果。
-
公开(公告)号:CN113284486A
公开(公告)日:2021-08-20
申请号:CN202110841144.X
申请日:2021-07-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种环境对抗的鲁棒语音鉴别方法,包括:采集语音鉴别模型训练数据;提取所述训练数据中每个语音句子的训练声学特征;将所述训练声学特征输入语音鉴别模型,所述语音鉴别模型包括:语音真假判别器和环境对抗判别器,联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数;得到训练后的语音鉴别模型;采集语音鉴别模型预测数据;提取所述预测数据中每个语音句子的预测声学特征;将所述预测声学特征输入训练后的去除环境对抗判别器的所述语音鉴别模型,输出语音的判别结果。
-
公开(公告)号:CN112560810B
公开(公告)日:2021-07-02
申请号:CN202110188615.1
申请日:2021-02-19
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及基于多尺度时空特征神经网络的微表情识别方法,可以从微表情视频帧中学习到微表情的空间域与时间域的特征,将两者特征结合形成更加鲁棒的微表情特征。同时针对微表情发生在面部局部区域,将微表情产生的活跃的局部地区与全局区域相结合用于微表情识别。解决了微表情连续帧之间特征提取不足,以及微表情在局部区域较为活跃的问题。本发明对自发式微表情的准确率,相比于其它方法,具有一定的优势,78.7%的准确率充分说明本发明对微表情的识别取得良好的成效。
-
公开(公告)号:CN113032516A
公开(公告)日:2021-06-25
申请号:CN202110581624.7
申请日:2021-05-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/31 , G06F16/35 , G06F16/36 , G06F40/289 , G06F40/295 , G06K9/62
Abstract: 本发明提供基于近似本体匹配的知识图谱融合方法,包括:对待融合的知识图谱的集合进行初始化,构建倒排索引,依据所述倒排索引获取本体的共现情况,获取近似匹配本体,根据近似匹配本体提取候选实体对,在名称候选实体对集合和近似匹配本体集合中计算候选实体对在属性上的相似度,根据相似度向量的分量对候选实体初步判别,利用实体的文本特征对所述歧义实体和近义实体进行二次筛选;通过对于知识图谱的本体层进行粗筛,依据筛选结果对计算过程分块,达到缩减计算规模的目的。在各块内利用属性、名称、文本等特征计算实体相似度。
-
公开(公告)号:CN112988960A
公开(公告)日:2021-06-18
申请号:CN202110178271.6
申请日:2021-02-09
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F16/332 , G06F40/30 , G06K9/62 , G06N3/04
Abstract: 本申请实施例涉及数据处理领域,具体涉及一种对话状态追踪方法、装置、设备及存储介质。旨在提升对话状态追踪的准确率。所述方法包括:将每轮对话的词序列与前一轮次系统动作的词序列拼接,得到每轮对话的输入词序列;利用预先训练好的槽填充序列标注模型,得到输入词序列中每个词的语义标签;将语义标签对应的特征向量与输入词序列中相应位置的词的向量拼接,得到输入词序列中每个词的特征向量;对输入词序列中每个词的特征向量编码,得到每轮对话的句子特征向量;将每轮对话的句子特征向量与前一时刻对话状态的信念分布进行拼接,将拼接得到的向量输入预先训练好的对话状态追踪模型中,为每轮对话标注上对话状态标签,得到每轮对话的对话状态。
-
公开(公告)号:CN112580612B
公开(公告)日:2021-06-08
申请号:CN202110196564.7
申请日:2021-02-22
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种生理信号预测方法,包括:采集视频文件,视频文件中包含有长时视频,视频的文件内容含有单个人的面部和真实生理信号数据;将单个长时视频分割成多段短时视频片段,每段短时视频片段具有固定帧数,并且每段短时视频片段对应一个真实生理信号标签;利用所述短时视频片段的每一帧,提取生理信号识别的感兴趣区域特征,形成单帧感兴趣区域特征;对所述每段短时视频片段对应的所有固定帧的单帧感兴趣区域特征进行拼接,形成多帧视频感兴趣区域特征,将多帧视频感兴趣区域特征由RGB色彩空间转化为YUV色彩空间,形成包含时间和空间信息的时空图;将所述时空图输入到深度学习模型中进行训练,利用训练好的深度学习模型预测生理信号参数。
-
公开(公告)号:CN112559835A
公开(公告)日:2021-03-26
申请号:CN202110200140.3
申请日:2021-02-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/906 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本申请涉及多模态情感识别方法,包括:分别提取帧级别的音频特征、帧级别的视频特征和词级别的文本特征;将提取出的特征分别输入到特征编码器进行建模,得到编码后的音频编码、视频编码和文本编码特征;将编码后的特征先分别经过各自的自注意力模块对模态内的交互关系进行建模,将其进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模;对上述自注意力模块和跨模态注意力模块的输出进行时序池化得到各模态内的全局交互特征,两两模态间的全局交互特征;利用注意力机制分别将这上述模态内和模态间的全局交互特征进行加权融合得到整个待测样本模态内和模态间的特征表示,将二者进行拼接经过全连接网络得到最终的情感分类结果。
-
-
-
-
-
-
-
-
-