投影定位装置及方法、交互系统和交互方法

    公开(公告)号:CN102508578A

    公开(公告)日:2012-06-20

    申请号:CN201110302639.1

    申请日:2011-10-09

    CPC classification number: G06F3/0425 G06F3/0304

    Abstract: 本发明公开了一种投影定位装置,包括:投影仪,用于将具有设定规律的条纹图案投影到被测物体表面;摄像机,用于摄取由被测物体表面形状所调制的变形条纹图像;处理装置,用于根据所述变形条纹图像确定被测物体的空间位置和/或位置变化。在此还公开了相应的投影定位方法、交互系统和交互方法。通过将条纹图案投影到被测物体表面,摄取并分析被测物体表面起伏所调制的变形条纹图像,可以对被测物体例如具复杂三维手势的人手进行较高精度地定位和较快速度地实时跟踪,从而实现精准流畅的体感或触控操作。

    一种基于深度混合模型的说话人确认方法

    公开(公告)号:CN108694950A

    公开(公告)日:2018-10-23

    申请号:CN201810465602.2

    申请日:2018-05-16

    Applicant: 清华大学

    CPC classification number: G10L17/04 G10L17/02 G10L25/24

    Abstract: 本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。

    韵律事件检测方法和装置
    34.
    发明授权

    公开(公告)号:CN104575518B

    公开(公告)日:2018-10-02

    申请号:CN201310487945.6

    申请日:2013-10-17

    Abstract: 本发明公开一种韵律事件检测方法和装置,涉及语音技术。为解决现有技术韵律事件检测的准确率较低的问题而发明。包括:接收到待检测语音时,获取预先训练一组受训语音得到的判别式模型M1、M2…Mn;以音节为单位划分待检测语音,得到至少一个待检测样本;提取每个待检测样本对应的待检测声学特征;使用判别式模型M1根据对应的待检测声学特征对每个待检测样本进行初步分类,得到每个待检测样本属于各个类别的第一概率;根据对应的联合检测特征,依次使用判别式模型M2…Mn分别对每个待检测样本进行分类,得到每个待检测样本属于各个类别的第二概率…第N概率;根据第N概率确定韵律检测结果。可以应用在自然语音的检测中。

    一种基于多帧频谱和非负矩阵分解的语音增强方法与装置

    公开(公告)号:CN107248414A

    公开(公告)日:2017-10-13

    申请号:CN201710366412.0

    申请日:2017-05-23

    Applicant: 清华大学

    CPC classification number: G10L21/0216 G10L21/0232 G10L25/18 G10L25/27

    Abstract: 本发明提出的一种基于多帧频谱和非负矩阵分解的语音增强方法与装置,属于语音增强和非负矩阵分解领域。该方法对纯净语音、噪声、带噪语音预处理,得到短时频谱,并转换为多帧频谱;将噪声和纯净语音的多帧频谱分别转化为对应的基矩阵和系数矩阵的乘积,求出噪声的多帧频谱的基矩阵和纯净语音多帧频谱的基矩阵;将两个基矩阵合成带噪语音多帧频谱的基矩阵,并将带噪语音的多帧频谱转化为基矩阵和系数矩阵的乘积,获得带噪语音多帧频谱的系数矩阵,进而得到噪声的和增强语音的多帧频谱的初始估计;通过维纳滤波方法,获得增强语音的多帧频谱,变换为时域信号,获得最终增强语音。本发明保存了语音的特有信息,更好地还原语音,提升语音增强的效果。

    一种基于数字口令与声纹联合确认的用户身份验证方法

    公开(公告)号:CN107104803A

    公开(公告)日:2017-08-29

    申请号:CN201710208226.4

    申请日:2017-03-31

    Applicant: 清华大学

    Abstract: 本发明提出一种基于数字口令与声纹联合确认的用户身份验证方法,属于身份验证技术领域。该方法包括初始化阶段:获取初始化训练音频并建立文本相关的通用背景模型;注册阶段:记录用户注册信息并建立文本相关的用户模型;验证阶段:用户按照服务器指定的顺序录制用户验证音频,根据用户验证音频的短时谱特征以及文本相关的用户模型与文本相关的通用背景模型,验证该用户验证音频的声纹是否属于目标用户且内容与正确数字串文本是否相符,得到声纹验证分数和文本验证分数;将两个验证分数加权求和得到最终验证分数,当最终验证分数超过设定阈值时,验证通过。本发明在传统口令验证的基础上,结合数字口令确认和声纹确认,增强了身份验证的安全性。

    一种蓝光光学头
    38.
    发明授权

    公开(公告)号:CN101807425B

    公开(公告)日:2013-01-09

    申请号:CN201010137997.7

    申请日:2010-03-25

    Abstract: 本发明公开了一种蓝光光学头,包括具有第一波长的第一光源系统、第一聚焦光路系统、具有第二波长的第二光源系统、第二聚焦光路系统和探测光路系统、偏置光路系统、分光元件,且所述第一聚焦光路系统中包含有对应于第一波长的λ/4波片,所述第二聚焦光路系统中包含有对应于第二波长的λ/4波片;通过偏置光路系统的设置使两套光路系统能在大部分区域共光轴,而利用λ/4波片的光学相位延迟作用,从而使反射光在原路返回时可以直接透射分光元件,并反向通过偏置光路系统,而入射到探测光路系统。这样就实现了反向光路和入射光路的重合、集成设计,光学头的集成度较高,其体积就可以做得很小。

    基于多坐标序列内核的说话人识别方法和系统

    公开(公告)号:CN101640043A

    公开(公告)日:2010-02-03

    申请号:CN200910092138.8

    申请日:2009-09-01

    Applicant: 清华大学

    Inventor: 何亮 邓妍 刘加

    Abstract: 本发明提出一种基于多坐标序列内核的说话人识别方法,包括训练阶段和识别阶段。训练阶段对训练语音进行预处理;从预处理后的训练语音中提取特征矢量序列;在特征矢量空间选择多坐标系原点,在各坐标系将所述特征矢量序列进行映射;根据坐标系选择算法,将各坐标系的矢量序列进行拼接,拼接为超矢量;确定超矢量空间,支持向量机SVM的核函数,并采用支持向量机算法进行训练,得到训练好的说话人模型。识别阶段利用已训练好的模型测试超矢量,输出判决分数。本发明通过对语音信号特征序列有效建模,既利用了高维统计量蕴含的信息,又降低了在集成电路上的运算复杂度,提高了说话人识别的准确率和识别速度。

    一种可编程控制的动态投影灯

    公开(公告)号:CN201731423U

    公开(公告)日:2011-02-02

    申请号:CN201020236997.8

    申请日:2010-06-25

    Abstract: 本实用新型涉及一种灯具,具体是提供一种可编程控制的动态投影灯。其结构包括灯外壳,所述灯外壳上环布有投影灯镜头,所述每个投影灯镜头后方设置有微型投影仪,所述微型投影仪固定在灯外壳内的安装支撑架上,所述微型投影仪通过视频数据接口连接中央处理器。与现有技术相比,本实用新型的一种可编程控制的动态投影灯使得滚灯投射出来的颜色光和图案均具有极强的灵活性,不仅可以投出预先设置的简单的图案,还可以自主编程,依据使用者的意愿投影出各种图片或者动态影像,能够满足不同的场合要求。

Patent Agency Ranking