一种基于两级模型的个性化头相关传输函数预测方法

    公开(公告)号:CN114510975A

    公开(公告)日:2022-05-17

    申请号:CN202210115522.0

    申请日:2022-02-07

    Inventor: 王晶 邱音良 谢湘

    Abstract: 本发明涉及一种基于两级模型的个性化头相关传输函数预测方法,属于虚拟三维音频、沉浸式音频技术领域。本发明的一种基于两级模型的个性化头相关传输函数预测方法:首先,基于已知的头相关传输函数数据库中的人体参数、头相关传输函数数据以及角度信息对决策树模型以及Transformer神经网络模型逐级进行训练,并顺序连接,得到训练好的两级模型;然后,采集待预测人员的人体参数,将人体参数作为训练好的两级模型的输入,得到该人员的个性化头相关传输函数数据,由此实现个性化头相关传输函数预测。本发明通过两级模型降低平均预测误差,提高预测结果的精度;利用开源小型数据库,简化试验测量过程;通过Transformer模型避免训练中的过拟合现象。

    基于深度学习语音增强的无参考语音质量客观评估方法

    公开(公告)号:CN107358966B

    公开(公告)日:2020-05-12

    申请号:CN201710498188.0

    申请日:2017-06-27

    Abstract: 本发明公开了基于深度学习语音增强的无参考语音质量客观评估方法,属于语音质量评价技术领域。本方法分为三个步骤:首先将待测语音经过已经训练好的基于深度信念网络的语音增强模型,得到增强后的语音信号;然后,分别提取出增强前后信号的梅尔倒谱系数,做两个系数的差;最后将这个参数作为输入,通过第二层的BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价。与以往的无参考语音质量评价模型相比,本发明方法与主观质量评分的相关度更好,均方误差也更小。

    一种基于张量建模的多路空间音频信号压缩和恢复方法

    公开(公告)号:CN106981292B

    公开(公告)日:2020-04-14

    申请号:CN201710342387.2

    申请日:2017-05-16

    Abstract: 本发明公开了一种基于张量建模的多路空间音频信号压缩和恢复方法,属于音频信号处理技术领域,尤其是空间音频编解码技术领域。对于多路空间音频信号进行声道能量归一化,同时获得声道能量调整参数,对每个声道的音频信号进行分帧、时频变换得到频域上的特征参数。对于训练样本集,建立四阶音频张量,经过张量分解得到三个低秩因子矩阵,其与测试样本集构建的三阶音频张量进行张量运算,得到压缩的核张量与声道能量调整参数一起编码传输,在解码端传输而来的核张量与训练好的低秩因子矩阵进行张量重构,对重构的张量信号在每个声道上进行逆变换、重叠相加和能量调整恢复出多路空间音频信号。本方法采用独特的因子矩阵的训练模式对多路空间音频信号进行张量建模能达到更高的压缩效率。

    一种用于语音质量网络主观测听的听音人等级评定方法

    公开(公告)号:CN104575522B

    公开(公告)日:2018-02-06

    申请号:CN201510017402.7

    申请日:2015-01-14

    Abstract: 本发明涉及一种用于主观测听的听音人等级综合评定方法,属于电信技术领域中语音质量的主观评价方向。包括以下步骤:1、计算得到语音质量主观测听的五个听音人数据分析指标;2、采用层级分析的量化方法对上述指标进行量化处理,得到各指标的权重向量;3、建立在线主观测听实验的听音人评价备择集={“优”,“良”,“中”,“及格”,“差”};4、将听音人数据分析指标结合权重向量计算整体均方值并划分到备择集中。对比现有方法,本发明方法可以对参加网络测听实验的听音人的表现进行综合评定,从而剔除评定等级较差的听音人,提高网络测听实验的准确性和可信性。

    一种车载摄像机的参数标定系统

    公开(公告)号:CN102930544B

    公开(公告)日:2014-06-18

    申请号:CN201210437164.1

    申请日:2012-11-05

    Abstract: 一种基于立体标定板的车载摄像机标定方法,包括步骤:a、自制立体标定板,基于所述自制立体标定板建立世界坐标系;b、建立摄像机标定模型:基于立体标定板建立摄像机坐标系模型,获取立体标定板棋盘角点的世界坐标,并基于角点检测算法提取上述棋盘角点的像素坐标;c、结合角点世界坐标及像素坐标,利用最小二乘法对摄像机内外参数进行标定。

    一种基于音频突发事件分类的多码本编码参数量化方法

    公开(公告)号:CN101587710A

    公开(公告)日:2009-11-25

    申请号:CN200910088368.7

    申请日:2009-07-02

    Inventor: 王晶 谢湘 匡镜明

    Abstract: 本发明公开了一种基于音频突发事件分类的多码本编码参数量化方法,属于音频编码技术领域。本方法首先对输入的音频信号逐帧进行暂态检测,然后对检测出的暂态帧进行突发事件分类,最后对得到的音频突发事件的编码参数,进行基于突发事件分类码本的矢量量化,由此实现了音频突发事件的分类和音频突发事件编码参数的量化过程。本发明方法提高了对突发事件编码参数的量化效果,改善了突发事件的编码音质。

    一种快速构造用于关键词检出任务的语音数据库的方法

    公开(公告)号:CN100389421C

    公开(公告)日:2008-05-21

    申请号:CN200610076775.2

    申请日:2006-04-20

    Abstract: 本发明涉及一种快速构造用于关键词检出任务的语音数据库的方法。其中执行以下步骤:步骤1,录制孤立词语音数据库;步骤2,根据关键词检出系统的要求确定关键词表和非关键词表;步骤3,确定关键词检出测试数据的参数如总的句子数,时间长度,关键词出现次数等;步骤4,使用波形拼接的方法将符合关键词检出系统要求的关键词和非关键词语音连接成句子,进而生成满足要求的用于关键词检出任务的数据库。本发明实现了利用已有的孤立词语音数据库快速构造用于关键词检出任务的语音数据库的方法,能灵活的根据不同的要求提供相应的语音数据库。

    一种基于复杂场景的自适应声纹识别方法

    公开(公告)号:CN118711593A

    公开(公告)日:2024-09-27

    申请号:CN202410724498.X

    申请日:2024-06-05

    Inventor: 谢湘 苏欣美

    Abstract: 本发明公开的一种基于复杂场景的自适应声纹识别方法,属于语音领域的自适应声纹识别领域。本发明实现方法为:构建域自适应声纹模型,基于CN‑Celeb数据采用增量学习策略训练自适应声纹模型,通过模型蒸馏实现对已有源域知识的保留和对目标域知识的快速吸收,避免在域迁移过程中的灾难性遗忘;自适应声纹模型通过联合源域和目标域的半监督训练方法,优化自适应声纹模型在两个域上的表现,使自适应声纹模型能够适应新的数据分布,在复杂场景中基于训练好的域自适应声纹模型实现自适应声纹识别,有效克服灾难性遗忘现象。本发明能够提升对复杂场景中自适应声纹识别的准确率和鲁棒性。本发明尤其是能够提升在戏剧、歌声等多变环境下识别的准确率和鲁棒性。

    一种基于人格的情感强度可控对话生成方法

    公开(公告)号:CN116166778A

    公开(公告)日:2023-05-26

    申请号:CN202211477369.2

    申请日:2022-11-23

    Inventor: 谢湘 刘杨

    Abstract: 本发明公开的一种基于人格的情感强度可控对话生成方法,属于自然语言处理的开放域情感对话系统领域。本发明实现方法为:在自然语言处理对话生成中引入心理学知识,通过将对话系统人格数值化并将对话系统人格数值转为对指定情感的强度数值,利用深度学习技术实现人格分类下的情感强度可控对话生成,由于对话系统对用户输入生成的回复的情感强度由人格数值进行控制,因此得到用户人格数值后,将所述用户人格数值输入深度学习模型,深度学习模型输出与用户人格适配的对话系统人格,从而能够实现针对不同人格的对话系统生成回复,使生成回复的情感强度与用户人格相符,进而解决智能客服、对话推荐、个性化文章生成、情绪疏导、智能陪伴等相关问题。

    一种基于多模态信息的面试测评方法和系统

    公开(公告)号:CN112651714A

    公开(公告)日:2021-04-13

    申请号:CN202011557727.1

    申请日:2020-12-25

    Inventor: 谢湘 梁爽 程皓

    Abstract: 本发明提供了一种基于多模态信息的面试测评方法、系统、装置及面试测评模型训练方法,属于机器学习中的多模态信息处理技术领域。所述多模态信息包括文本信息、语音信息、彩色视频信息,以及3D视频信息和/或生理信息。该方法包括采集面试数据,获取面试的多模态信息,提取所述多模态信息的面试特征,将所述面试特征输入预先训练好的面试测评模型,得到应聘者的十个职业能力维度的得分,根据所述得分,输出面试测评结果和聘用结果。面试特征包括文本特征、语音特征、微表情特征、以及姿态特征和/或生理特征。本发明能够提高面试效率和面试测评准确度,通过不同职位的统一的面试测评标准,能全面、客观地对应聘者进行测评。

Patent Agency Ranking