-
公开(公告)号:CN111128128B
公开(公告)日:2023-05-23
申请号:CN201911366488.9
申请日:2019-12-26
Applicant: 华南理工大学
Abstract: 本发明提供了一种基于互补模型评分融合的语音关键词检测方法,包括以下步骤:1)在音频特征空间进行关键词建模的基础上,引入基于i‑vector的关键词建模;2)自适应分段窗移:对于待检测的语音样本,从起始信号截取语音段,获取当前段在语音特征空间的分布表达,将其与关键词类属性计算相似度得到当前段的类评分序列,根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段;3)利用关键词候选点的位置进行评分融合。该发明采用两种有差异的模型实现一种有一定互补性的关键词检测算法,对两种模型的评分结果进行融合,能解决在训练样本量少的情况下的语音关键词检出,同时能提升关键词检出准确度。
-
公开(公告)号:CN108510061A
公开(公告)日:2018-09-07
申请号:CN201810225929.2
申请日:2018-03-19
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于条件生成对抗的多监控视频人脸合成正脸的方法,包括采集监控视频中的无约束偏转角度人脸和正脸,筛选出正脸,得到无约束偏转角度人脸图像数据集和正脸图像数据集,并对每一个人的人脸图像数据集进行标注;对每个人的正脸图像数据集进行人脸对齐;构建条件生成对抗网络,采用对抗训练的策略对生成器模型和卷积神经网络判决器模型进行训练,直到条件生成对抗网络收敛稳定,最后将同一监控视频捕捉到的人脸图像输入训练好的生成器输入,得到一张正脸图像。
-
公开(公告)号:CN108510061B
公开(公告)日:2022-03-29
申请号:CN201810225929.2
申请日:2018-03-19
Applicant: 华南理工大学
IPC: G06N3/04 , G06V10/774 , G06V40/16 , G06V10/82
Abstract: 本发明公开了一种基于条件生成对抗的多监控视频人脸合成正脸的方法,包括采集监控视频中的无约束偏转角度人脸和正脸,筛选出正脸,得到无约束偏转角度人脸图像数据集和正脸图像数据集,并对每一个人的人脸图像数据集进行标注;对每个人的正脸图像数据集进行人脸对齐;构建条件生成对抗网络,采用对抗训练的策略对生成器模型和卷积神经网络判决器模型进行训练,直到条件生成对抗网络收敛稳定,最后将同一监控视频捕捉到的人脸图像输入训练好的生成器输入,得到一张正脸图像。
-
公开(公告)号:CN111128128A
公开(公告)日:2020-05-08
申请号:CN201911366488.9
申请日:2019-12-26
Applicant: 华南理工大学
Abstract: 本发明提供了一种基于互补模型评分融合的语音关键词检测方法,包括以下步骤:1)在音频特征空间进行关键词建模的基础上,引入基于i-vector的关键词建模;2)自适应分段窗移:对于待检测的语音样本,从起始信号截取语音段,获取当前段在语音特征空间的分布表达,将其与关键词类属性计算相似度得到当前段的类评分序列,根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段;3)利用关键词候选点的位置进行评分融合。该发明采用两种有差异的模型实现一种有一定互补性的关键词检测算法,对两种模型的评分结果进行融合,能解决在训练样本量少的情况下的语音关键词检出,同时能提升关键词检出准确度。
-
-
-