基于稀疏降维的说话人识别方法

    公开(公告)号:CN103413551B

    公开(公告)日:2015-11-18

    申请号:CN201310298757.9

    申请日:2013-07-16

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,本发明通过寻找稀疏降维投影矩阵的解路径实现稀疏降维,使得每个解路径在与其相关的范数参数上获得局部最优,最终实现全局最优,可用于说话人识别、人脸识别、手写体分类、人机交互等多种机器学习领域。

    一种基于局部学习的说话人识别方法

    公开(公告)号:CN103035239B

    公开(公告)日:2014-10-08

    申请号:CN201210548563.5

    申请日:2012-12-17

    Applicant: 清华大学

    Inventor: 杨毅 陈国顺 马欣

    Abstract: 一种基于局部学习的说话人识别方法,包括训练阶段与识别阶段,训练阶段包括:将训练数据通过提取特征和聚类方法分为特征空间上的多类训练集;针对每类训练集进行局部学习,通过概率线性判别分析方法获得多个模型;识别阶段包括:对待识别数据提取特征并进行分类判决得到特征空间上的多类待识别集;针对每类待识别集进行局部学习,根据训练数据得到的多个模型计算每类待识别集的后验概率作为结果;本发明应用于说话人识别中的说话人鉴别和说话人确认场景,可以降低由于异构性数据引起的错误识别率,最后每类待识别集的后验概率信息作为结果被系统输出。

    一种电解液和包含其的二次锂电池

    公开(公告)号:CN118738566A

    公开(公告)日:2024-10-01

    申请号:CN202411017161.1

    申请日:2024-07-26

    Applicant: 清华大学

    Abstract: 本申请提供一种电解液和包含其的二次锂电池。所述电解液包括无氟溶剂为主溶剂。根据本申请,该无氟溶剂可在>5V(vs.Li/Li+)的高电压下不发生明显氧化。因此,使用该无氟溶剂的电解液可匹配高电压的高镍三元正极(4.3V)或富锂锰基正极(4.7V),装配成具有高能量密度、长循环稳定的锂电池。

    一种时域单通道多说话人语音识别方法与系统

    公开(公告)号:CN111243579B

    公开(公告)日:2022-10-14

    申请号:CN202010061565.6

    申请日:2020-01-19

    Applicant: 清华大学

    Inventor: 黄露 杨毅 孙甲松

    Abstract: 一种时域单通道多说话人语音识别方法,输入是混合语音信号的原始波形采样,先通过一维卷积网络提取特征,然后送入分离网络进行语音分离;分离后的输出分别送入两个全连接层,输出两个声学状态分布向量;随后采用强制对齐方法,从已有的目标语音标注中获得相应的标注信息,通过交叉打分和阈值选择的方式计算两种排序下较小的一个声学建模单元概率分布误差作为神经网络反向传播的误差,构建含有时域单通道多说话人语音识别模型,利用该模型即可实现多说话人语音识别,本发明还提供了一种通过阈值设置来减少1/4~1/2误差计算量的打分算法以加速交叉打分过程。在测试时,将神经网络两个输出的概率向量对数值送入语音识别解码器,即可获得两个人的识别文本。

    一种高召回率弱标注声音事件检测方法

    公开(公告)号:CN112036477B

    公开(公告)日:2022-06-17

    申请号:CN202010889143.8

    申请日:2020-08-28

    Applicant: 清华大学

    Abstract: 一种高召回率弱标注声音事件检测方法,设定深度学习对应的神经网络、训练数据;初始化损失函数为交叉熵损失,并增加若干组不同权重的骰子损失,其中正样本占比越高,需要权重越大;训练并测试观察仅用交叉熵损失和增加若干组不同权重骰子损失的实验结果好坏;调整损失中的权重超参数,重新进行若干组骰子损失权重取值;循环迭代找出最好的效果完成训练,得到最终的损失函数;将最终的损失函数用于神经网络检测模型,将所得模型应用至声音事件检测系统,通过神经网络分类器得到声音事件的包级预测和帧级预测。本发明可解决声音事件检测中普遍采用的一对多实现多分类从而导致样本分布不均的问题,有效提升更重视召回率的F2分数。

    视频数据处理方法、装置及设备

    公开(公告)号:CN114067237A

    公开(公告)日:2022-02-18

    申请号:CN202111264126.6

    申请日:2021-10-28

    Applicant: 清华大学

    Abstract: 本申请提供一种视频数据处理方法、装置及设备,涉及计算机技术,该方法包括:获取待检测视频,待检测视频内包括多个文本;根据预设的文本检测模型检测待检测视频内的文本,其中,文本检测模型为根据注意力机制及预设的形状感知的损失函数对神经网络模型训练得到的;根据检测到的文本,输出包含文本检测框的视频,文本检测框用于标示文本在视频内的位置。本申请的方法,可以解决文本检测中准确率与速度无法同时兼顾的问题,在实现高准确率的文本检测的同时,大大提升了文本检测的速度,更加的适应实际应用,解决了检测文本的效率较低的技术问题。

    一种残差长短期记忆循环神经网络的声学模型建模方法

    公开(公告)号:CN107293288A

    公开(公告)日:2017-10-24

    申请号:CN201710432477.0

    申请日:2017-06-09

    Applicant: 清华大学

    Inventor: 黄露 杨毅 孙甲松

    Abstract: 一种残差长短期记忆循环神经网络的声学模型建模方法,将标准的长短期记忆神经网络架构的输入和内部节点直连,在直连处将该节点处原来的向量和输入向量拼接,然后投影至原来的维度;本发明提出的方法,给出一个供于直连的内部节点位置,实验表明此位置能够带来识别的性能提升,并结合基于帧的Dropout技术进一步提升系统性能;这种方法提升了基于长短期记忆循环神经网络的语音识别系统的性能,并且结合基于帧的Dropout技术来防止过拟合问题,实现了提升模型泛化能力的目的,该方法可广泛应用于涉及语音识别的多种人机交互领域。

    一种麦克风阵列声源空间实时定位方法

    公开(公告)号:CN106093864A

    公开(公告)日:2016-11-09

    申请号:CN201610391351.9

    申请日:2016-06-03

    Applicant: 清华大学

    Inventor: 杨毅 孙甲松

    CPC classification number: G01S5/18

    Abstract: 本发明一种麦克风阵列声源空间实时定位方法,以麦克风阵列作为信号采集和输出设备,通过使用可控功率响应‑相位变换法初步给出声源空间位置候选点;通过先验知识进行初步的候选点筛选,并使用可控功率响应‑相位变换法计算候选点的可控功率响应输出;用改进的随机区域收缩重新确定搜索边界,提高可控功率响应‑相位变换法的效率;最后计算剩余候选点的可控功率响应,选取最大的位置作为最终的声源估计位置;本发明声源定位原理明确,实时性好,实验证明该方法在平面上的定位误差范围可控制在厘米量级上,性能优于基于现有技术的方法;具有较高的运算速度和鲁棒性,可应用于智能家居和智能机器人等需要进行实时声源定位的场景。

    采用引压管测量燃烧室中动态压力的修正方法

    公开(公告)号:CN104964790A

    公开(公告)日:2015-10-07

    申请号:CN201510325467.8

    申请日:2015-06-12

    Abstract: 一种采用引压管测量燃烧室中动态压力的修正方法,包括如下步骤:1)构建动态压力传感器测点处压力脉动与燃烧室中引压孔附近压力脉动的比值关系,将这种比值关系写成以频率ω为自变量的表达式;2)应用时,将动态压力传感器的测量结果进行傅里叶变换,再根据所述比值关系的表达式进行修正,得到修正后的测量结果。本发明根据引压管动态压力测量系统中引压管、动态压力传感器的实际安装方式和测量环境,提供理论公式计算方法和实验方法进行修正,从而实现对各种安装方式和测量环境下的动态压力传感器的测量结果进行修正。

Patent Agency Ranking