整合两种约束的多视图深度半监督图像聚类方法

    公开(公告)号:CN117437452A

    公开(公告)日:2024-01-23

    申请号:CN202311675086.3

    申请日:2023-12-07

    Abstract: 本发明涉及整合两种约束的多视图深度半监督图像聚类方法,属于计算机与信息科学技术领域。本发明首先使用卷积神经网络和残差神经网络提取原始图像的空间特征,得到图像的局部形状特征视图和全局结构特征视图;其次将原始图像视图和上述两个视图通过自编码器网络构建多视图特征空间并初始化其聚类中心;然后将数据中的标签约束和成对约束整合为成对关系矩阵;最后使用初始聚类中心和成对关系矩阵组成损失函数,迭代更新聚类中心并得到聚类结果。本发明针对现有方法忽略了不同约束条件的关联性,在含噪约束条件下,聚类结果易受错误约束条件影响的问题,提出整合两种约束的多视图深度半监督图像聚类方法,提高聚类准确率。

    强化人体感知特性的分频神经网络汉语语音编码方法

    公开(公告)号:CN115762539A

    公开(公告)日:2023-03-07

    申请号:CN202211327715.9

    申请日:2022-10-27

    Abstract: 本发明涉及强化人体感知特性的分频神经网络汉语语音编码方法,属于计算机与信息科学技术领域。本发明首先根据人体对频率变化感知的非线性特点将汉语语音低频段转化为语谱图、高频段转化为梅尔频谱;然后融合残差网络和VQ‑VAE‑2架构构建语音编解码模型,使用编码器提取语谱图的能量分布特征和梅尔频谱的频率分布特征,并进行矢量量化得到压缩编码向量;最后,使用解码器重建频谱图并采用基于截断牛顿算法的梯度更新方法重建语音信号。本发明在较低编码率条件下,充分考虑人体对汉语语音不同频段的感知差异,有效提升了重建语音信号的质量。

    多语种终身学习的语音识别方法
    3.
    发明公开

    公开(公告)号:CN115148194A

    公开(公告)日:2022-10-04

    申请号:CN202210533041.1

    申请日:2022-05-16

    Abstract: 本发明涉及多语种终身学习的语音识别方法,属于计算机与信息科学技术领域。本发明首先结合连续时序分类和Transformer算法对单一语种的语音训练语音识别模型;其次,当有新语种识别任务加入时,衡量该语种和已识别语种的相似度;然后,使用基于相似度的正交权重修正算法对模型的梯度下降方向进行修正;最后,使用新语种训练多语种语音识别模型,实现多语种的语音识别。本发明能够在保证已学习语种识别能力的同时,在线学习新语种并更新模型,加快了新语种的学习速度,提升了模型对于多个语种的识别性能。

Patent Agency Ranking