一种多层卷积特征自适应融合的运动目标跟踪方法

    公开(公告)号:CN109816689A

    公开(公告)日:2019-05-28

    申请号:CN201811552949.7

    申请日:2018-12-18

    Inventor: 尚振宏 王娜

    Abstract: 本发明涉及一种多层卷积特征自适应融合的运动目标跟踪方法,属于计算机视觉领域。本发明首先在第一帧图像中,初始化目标区域,利用已训练好的深度网络框架VGG-19提取目标图像块的第一和第五层卷积特征,通过相关滤波器学习训练得到两个模板;其次在下一帧,以上一帧目标的预测位置和尺度大小提取检测样本特征,并和上一帧的两个模板进行卷积,即得到两层特征的响应图;然后对所得到的响应图依据APCE测量方法计算权重,自适应加权融合响应图来确定目标的最终位置;确定位置后通过提取目标多个尺度的方向梯度直方图特征估计目标最佳尺度。本发明更准确的定位目标,提高了跟踪精度。

    面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统

    公开(公告)号:CN119007704A

    公开(公告)日:2024-11-22

    申请号:CN202411118674.1

    申请日:2024-08-15

    Abstract: 本发明提供面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统,主要针对个性化语音合成中域外说话人音色难以准确捕捉的问题,通过全局说话人表征模块和细粒度说话人表征模块的创新结合,有效提升了零资源条件下域外说话人语音合成的性能。全局模块使用快速傅里叶卷积和多头注意力机制提取并优化说话人音色特征,增强模型对未见说话人的泛化能力。细粒度模块则利用预训练的语音识别技术细致解耦音素级别特征,通过注意力机制精准捕捉音色细节。实验结果显示,本发明方法在AISHELL3数据集上的表现优于现有技术,尤其在说话人特征向量余弦相似度等客观评价指标上取得显著进步,验证了其在处理未见说话人适应问题上的有效性和实用性。

    一种多层卷积特征自适应融合的运动目标跟踪方法

    公开(公告)号:CN109816689B

    公开(公告)日:2022-07-19

    申请号:CN201811552949.7

    申请日:2018-12-18

    Inventor: 尚振宏 王娜

    Abstract: 本发明涉及一种多层卷积特征自适应融合的运动目标跟踪方法,属于计算机视觉领域。本发明首先在第一帧图像中,初始化目标区域,利用已训练好的深度网络框架VGG‑19提取目标图像块的第一和第五层卷积特征,通过相关滤波器学习训练得到两个模板;其次在下一帧,以上一帧目标的预测位置和尺度大小提取检测样本特征,并和上一帧的两个模板进行卷积,即得到两层特征的响应图;然后对所得到的响应图依据APCE测量方法计算权重,自适应加权融合响应图来确定目标的最终位置;确定位置后通过提取目标多个尺度的方向梯度直方图特征估计目标最佳尺度。本发明更准确的定位目标,提高了跟踪精度。

Patent Agency Ranking