一种3D视频图像采集系统
    21.
    发明公开

    公开(公告)号:CN104994370A

    公开(公告)日:2015-10-21

    申请号:CN201510384847.9

    申请日:2015-06-30

    Abstract: 本发明公开一种3D视频图像采集系统,包括双目高清摄像头、可遥控云台、图像拼接器和3D显示器,其中,所述双目高清摄像头安装在可遥控云台上,所述可遥控云台通过遥控信号进行左右或上下旋转,使双目高清摄像头对准正确方位进行图像采集,所述双目高清摄像头由两个摄像头组成,通过两个摄像头从不同视点拍摄得到同一场景的两幅存在双目视差的图像,利用双目视差恢复得到场景深度,双目高清摄像头将图像发送给图像拼接器,图像拼接器将2张JPG格式的图像以side by side格式拼接成一张JPG格式的图片,并通过数据线将拼接后的图像数据传输到3D显示器。

    互联网人物视频交互式标注方法及系统

    公开(公告)号:CN104217008A

    公开(公告)日:2014-12-17

    申请号:CN201410475211.0

    申请日:2014-09-17

    CPC classification number: G06F17/30793

    Abstract: 本发明公开了一种互联网人物视频交互式标注方法和系统,所述方法包括:提取待标注视频中的人脸序列和周边文本中的人名;以人名为文本关键词,利用搜索引擎获得相应人物网络图像集合;计算人脸序列的重要性得分,人脸序列的两两合并推荐得分,以及人脸序列与人物网络图像的相似性,根据上述性质,确定标注时予以显示的人脸序列、人名及人物网络图像;通过多种用户交互操作,产生相应标注行为,实现对视频中人物的标注。本发明通过挖掘多种与待标注视频及人物相关的资源,并设计友好多样的用户交互方式,可简化标注过程,辅助标注决策,有效缓解标注者不认识待标注人物,导致标注过程难以进行的问题,能够大幅度提高人物视频标注的效率和精度。

    一种用于鲁棒语音识别的语音特征提取方法

    公开(公告)号:CN102982801B

    公开(公告)日:2014-12-10

    申请号:CN201210449436.X

    申请日:2012-11-12

    Abstract: 本发明公开了一种用于鲁棒语音识别的语音特征提取方法,该方法包括:获取功率谱;采用滤波器组对功率谱进行处理;采用帧平均的方式求取中等时长的功率谱;对功率谱进行不对称滤波处理,同时对功率谱进行掩蔽处理,得到纯净语音功率谱;对纯净语音和带噪语音功率谱的比值进行通道平均处理,以进行平滑;将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的功率谱相乘,得到纯净语音的短时功率谱;对短时功率谱进行能量归一化处理,以消除乘性噪声;功率谱进行等响度加重;功率谱进行指数操作;对功率谱进行傅立叶逆变换;求取信号的倒谱系数;对倒谱系数进行均值归一化处理。本发明提取的语音信号的特征,速度快,能够实现在线处理;利用本发明提取的特征训练出的声学模型,具用很好的抗噪效果;本发明具有非常重大的使用意义。

    一种基于搜索匹配的角色标注方法

    公开(公告)号:CN103984738A

    公开(公告)日:2014-08-13

    申请号:CN201410218854.7

    申请日:2014-05-22

    CPC classification number: G06F17/30793

    Abstract: 本发明公开了一种基于搜索匹配的影视剧角色标注方法,该方法包括步骤:根据待标注对象列表,得到标注场景的待标注对象集合及所有待标注对象信息;为每位待标注对象构造文本关键词,利用图像搜索引擎获得相应的图像集合;在搜索结果图像上进行人脸检测和视觉属性分析,去除其中的噪声,得到待标注对象与标注场景密切相关的角色人脸集合;对标注场景进行人脸检测和跟踪,得到其中所有的人脸序列;基于人脸序列之间的视觉相似度,以及人脸序列与待标注对象角色人脸的视觉相似度分析,对标注场景进行角色标注。本发明利用互联网中关于影视剧角色的人脸图像进行影视剧角色标注,其有益效果在于:标注过程全自动、标注精度高、方法扩展性和普适性强。

    一种用于语音识别的Ngram模型改进方法

    公开(公告)号:CN102968989B

    公开(公告)日:2014-08-13

    申请号:CN201210528093.6

    申请日:2012-12-10

    Inventor: 柯登峰 徐波

    Abstract: 本发明公开了一种用于语音识别的Ngram模型改进方法,其包括:将用于语音识别的原始Ngram模型转成等价的WFSA网络NET1;利用RNN优化所述NET1,使得使用所述NET1对训练文本打分时,对于训练文本中每个语句的输出概率最大化;利用发音字典将所述NET1转成带有语言模型概率的WFST发音网络NET2;利用音子混淆矩阵优化所述发音网络NET2,使得句子错误率最小化;将所述发音网络NET2反向转换成改进后的Ngram模型,使用该改进后的Ngram模型进行语音识别。

    一种用于鲁棒语音识别的语音特征提取方法

    公开(公告)号:CN102982801A

    公开(公告)日:2013-03-20

    申请号:CN201210449436.X

    申请日:2012-11-12

    Abstract: 本发明公开了一种用于鲁棒语音识别的语音特征提取方法,该方法包括:获取功率谱;采用滤波器组对功率谱进行处理;采用帧平均的方式求取中等时长的功率谱;对功率谱进行不对称滤波处理,同时对功率谱进行掩蔽处理,得到纯净语音功率谱;对纯净语音和带噪语音功率谱的比值进行通道平均处理,以进行平滑;将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的功率谱相乘,得到纯净语音的短时功率谱;对短时功率谱进行能量归一化处理,以消除乘性噪声;功率谱进行等响度加重;功率谱进行指数操作;对功率谱进行傅立叶逆变换;求取信号的倒谱系数;对倒谱系数进行均值归一化处理。本发明提取的语音信号的特征,速度快,能够实现在线处理;利用本发明提取的特征训练出的声学模型,具用很好的抗噪效果;本发明具有非常重大的使用意义。

    面向海量广播电视节目的新一代智能编目系统和方法

    公开(公告)号:CN102075695B

    公开(公告)日:2012-10-10

    申请号:CN201010616492.9

    申请日:2010-12-30

    Abstract: 本发明公开了一种面向海量广播电视节目的新一代智能编目系统和方法,其初始化模块可自动发现广播电视节目片头曲、片尾曲及广告片段;节目打点模块可对广播电视节目的起止点进行自动标记,并发现新出现的广播电视节目;新闻拆条模块可对新闻节目的条目起止点进行自动标记;广告抽取模块可对广播电视节目中播放广告的起止点进行自动标记,并发现新出现的广告;节目编目模块可对广播电视节目内容进行自动标记;多媒体检索模块可为用户提供经过编目和索引的广播电视节目数据的多媒体检索能力;上述模块提供的处理结果,经人工确认后,输入知识库管理与学习模块,进行学习并更新上述各模块的模型参数,以确保系统在不同应用环境下的适应性和可用性。

    一种汉语口语重音自动检测方法

    公开(公告)号:CN101751919B

    公开(公告)日:2012-05-23

    申请号:CN200810238877.9

    申请日:2008-12-03

    Abstract: 本发明涉及一种汉语口语重音自动检测方法,是通过语音识别技术对说话人的朗读语音结合其朗读或跟读文本内容进行自动切分与对齐,利用语音信号处理技术结合语言学的基本理论对切分的语音段进行特征参数的提取,然后通过机器学习的方法对提取的特征参数进行分类处理得到说话人汉语口语重音与非重音的检测及其诊断信息。本发明能自动、有效地检测出朗读者发音的重音位置是否正确,应用于普通话自动测试与评估系统中,有助于让学生更好的把握汉语的重音,表达的意思更加明确。在普通话辅助教学软件中增加重音的检测及其诊断功能,有助于使发音者的普通话更加纯正和地道,从而达到高效交际的目的。

    多级透镜的三维成像系统
    29.
    发明授权

    公开(公告)号:CN101975994B

    公开(公告)日:2012-03-28

    申请号:CN201010264671.0

    申请日:2010-08-27

    Inventor: 黄向生 徐波

    Abstract: 本发明是多级透镜的三维成像系统,包括多级透镜和传感器,多级透镜为第一级透镜、第二级透镜、……第N-2级透镜、第N-1级透镜、第N级透镜,其中:在光线传播的方向依序放置多级透镜和传感器,光线通过第一级透镜成像至第N-1级透镜用于生成多级场景缩小成像信息,多级场景缩小成像信息继续传播至第N级透镜,第N级透镜得到物体光线的多视角的场景二维信息,传感器提取多视角的场景二维信息,再通过立体匹配,从而获得场景中物体的深度信息。设计传感器像素尺寸和各级透镜的各个透镜的焦距,还有各级透镜的相邻透镜的距离,从而得到良好的深度分辨率。

    运用计算机对口语翻译质量进行评分的方法

    公开(公告)号:CN101739867B

    公开(公告)日:2012-03-28

    申请号:CN200810226673.3

    申请日:2008-11-19

    Abstract: 本发明一种运用计算机对口语翻译质量进行评分的方法综合使用计算机语音识别、语音发音评估、文本翻译质量确认技术得到被测试人员的口语翻译质量,包含建立针对被测试发音人群特点的数据库,然后在此数据库基础上使用大词汇连续语音声学模型训练平台训练得到声学模型,然后对每个翻译题型收集对应的专家知识和翻译文本语料,以制成识别需要的语言模型、评分模型、标准调整模型;最后综合语音识别器的输出结果及语言学处理机制,输出被测试人员口语翻译质量的得分,并给出反馈意见。本发明机器评测的效果已经基本达到与专家打分接近的水平,同时还可以在评测过程中给出被测试人员发音、词汇使用、句型使用的一些意见,指导被测试人员矫正。

Patent Agency Ranking