基于稀疏降维的说话人识别方法

    公开(公告)号:CN103413551A

    公开(公告)日:2013-11-27

    申请号:CN201310298757.9

    申请日:2013-07-16

    Applicant: 清华大学

    Inventor: 杨毅 刘加

    Abstract: 一种基于稀疏降维的说话人识别方法,提取用于训练的语音信号的声学特征作为说话人识别的训练特征,然后通过求解稀疏投影矩阵对用于训练的语音信号的声学特征进行降维,并获得最终稀疏投影矩阵,在完成降维后进行分类器训练,提取待识别的语音信号的声学特征作为说话人识别的待识别特征,利用获得的最终稀疏投影矩阵对待识别的语音信号的声学特征进行稀疏降维处理,最终根据所述分类器训练方法进行分类判决,本发明通过寻找稀疏降维投影矩阵的解路径实现稀疏降维,使得每个解路径在与其相关的范数参数上获得局部最优,最终实现全局最优,可用于说话人识别、人脸识别、手写体分类、人机交互等多种机器学习领域。

    一种基于量子学习优化决策的音频索引方法

    公开(公告)号:CN102419976A

    公开(公告)日:2012-04-18

    申请号:CN201110394718.X

    申请日:2011-12-02

    Applicant: 清华大学

    Abstract: 本发明为一种针对会议场景下的语音数据进行音频索引的方法,将输入的语音信号进行预处理和初始化后进行声学特征提取,然后进行量子学习,设计一种包括两个连续变量的均值未知的量子高斯模型,将传统参数与量子参数分别进行优化,然后基于分类决策给出分类结果,最终由系统输出全部的语音频段及其相应的说话人身份信息,本发明的量子学习方法是通过量子估计实现对Helstrom测度进行逼近,通过通用量子分类学习方法的扩展,可有效地解决会议场景下多个说话人混合的通用说话人分类问题。

    一种拼装而成的均匀面光源

    公开(公告)号:CN1844988A

    公开(公告)日:2006-10-11

    申请号:CN200610002143.1

    申请日:2006-01-19

    Applicant: 清华大学

    Abstract: 一种拼装而成的均匀面光源属于发光二极管封装和应用技术领域。其特征在于,它是由多块基于发光二极管的面光源模块水平拼装而成的面光源,所述每一块面光源模块含有,发光二极管光源,和使所述发光二极管光源发出的光经过折射和/或反射后,在出射平面上产生近似均匀的照度,并且出射的方向与光的中轴平行的匀光-准直光学机构。本发明可以在兼顾高效率的前提下获得良好的出光均匀性,在个人计算机、车辆导航系统、手持电话等设备中安装的液晶显示装置的背光源,以及普通的室内照明用灯具等应用方面具有广阔的前景。

    一种紧凑式大功率LED阵列
    44.
    发明公开

    公开(公告)号:CN1664433A

    公开(公告)日:2005-09-07

    申请号:CN200510011451.6

    申请日:2005-03-21

    Applicant: 清华大学

    Abstract: 一种紧凑式大功率LED阵列,属于发光二极管的应用技术领域,其特征在于,它在出光平面方向由多个LED阵列单元水平拼装而成,每个LED阵列单元含有厚达数厘米且用高热导率材料制成的底板,固定在底板正面的集群式LED,从底板背面或侧面开的孔中插入的集群式热管以及固定在热管冷凝端的散热片。本发明中底板温度均匀,系统热阻小,能维持上百个LED协同稳定地工作,形成数千流明的光源,结构简洁,适用于居家、道路照明等。

    视频数据处理方法、装置及设备

    公开(公告)号:CN114067237B

    公开(公告)日:2025-05-13

    申请号:CN202111264126.6

    申请日:2021-10-28

    Applicant: 清华大学

    Abstract: 本申请提供一种视频数据处理方法、装置及设备,涉及计算机技术,该方法包括:获取待检测视频,待检测视频内包括多个文本;根据预设的文本检测模型检测待检测视频内的文本,其中,文本检测模型为根据注意力机制及预设的形状感知的损失函数对神经网络模型训练得到的;根据检测到的文本,输出包含文本检测框的视频,文本检测框用于标示文本在视频内的位置。本申请的方法,可以解决文本检测中准确率与速度无法同时兼顾的问题,在实现高准确率的文本检测的同时,大大提升了文本检测的速度,更加的适应实际应用,解决了检测文本的效率较低的技术问题。

    将视觉内容转换为虚拟动画视觉表示的方法及装置

    公开(公告)号:CN118154733A

    公开(公告)日:2024-06-07

    申请号:CN202410265968.0

    申请日:2024-03-08

    Applicant: 清华大学

    Inventor: 杨毅 冯昊 孙甲松

    Abstract: 本申请公开一种将视觉内容转换为虚拟动画视觉表示的方法及装置,其中,方法包括:将获取目标场景中的原始视觉数据进行预处理,得到处理后的视觉数据;提取处理后的视觉数据中的通用视觉特征和目标语义,并分别进行编码,得到通用语义文本数据和目标语义文本数据并进行融合,得到融合文本数据,利用目标大规模生成模型对融合文本数据进行解码,得到解码文本数据,从而得到用于虚拟动画视觉表示的虚拟动画视觉数据。由此,解决了相关技术中在6G语义通信中采用大规模生成模型实现元宇宙虚拟环境或智能辅助驾驶等应用,难以准确保留重建场景中的人类情绪,降低了虚拟动画视觉表示的准确性,无法满足虚拟动画视觉表示的需求的问题。

    基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法

    公开(公告)号:CN104700828B

    公开(公告)日:2018-01-12

    申请号:CN201510122982.6

    申请日:2015-03-19

    Applicant: 清华大学

    Inventor: 杨毅 孙甲松

    CPC classification number: G10L15/02 G10L15/06

    Abstract: 一种基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法,通过在深度长短期记忆循环神经网络声学模型中增加注意门单元,来表征听觉皮层神经元的瞬时功能改变,注意门单元与其他门单元不同之处在于,其他门单元与时间序列一一对应,而注意门单元体现的是短期可塑性效应,因此在时间序列上存在间隔;通过对包含Cross‑talk噪声的大量语音数据进行训练获得的上述神经网络声学模型,可以实现对Cross‑talk噪声的鲁棒特征提取和鲁棒声学模型的构建,通过抑制非目标流对特征提取的影响可以达到提高声学模型的鲁棒性的目的;该方法可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

    分布式麦克风阵列网络的鲁棒声源空间定位方法

    公开(公告)号:CN105388459B

    公开(公告)日:2017-08-11

    申请号:CN201510808753.X

    申请日:2015-11-20

    Applicant: 清华大学

    Inventor: 杨毅 孙甲松

    Abstract: 本发明为一种分布式麦克风阵列网络的鲁棒声源空间定位方法,通过构建三维空间坐标系、估计到达时间差并降低混响干扰、估计声源位置、最终判定声源位置,本发明使用两个麦克风阵列确定三维空间坐标,充分利用麦克风阵列网络中存在的时延信息降低室内混响带来的干扰;并将空间坐标区域进行划分,通过两次估计来最终确定声源的空间位置,本发明性能和计算代价优于现有技术水平,具有应用广泛,结构简单,成本低廉的优点,适用于智能家居和智能监控等使用分布式麦克风阵列网络的场景。

Patent Agency Ranking