-
公开(公告)号:CN112905754A
公开(公告)日:2021-06-04
申请号:CN201911294260.3
申请日:2019-12-16
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/583 , G06N3/04
Abstract: 本发明提供了一种基于人工智能的视觉对话方法、装置、电子设备及存储介质;方法包括:获取与图片对应的对话问题及对话历史;将所述图片和所述对话历史中的至少一个确定为通道信息;根据所述对话问题和所述通道信息,进行追踪处理和定位处理中的至少一种处理,得到对应的通道特征;根据所述通道特征,将所述图片、所述对话问题和所述对话历史进行融合处理,得到融合特征;根据所述融合特征进行预测处理,得到所述对话问题对应的对话答案。通过本发明,能够加深对话问题的多模态表示,提升得到的对话答案的准确性,提升视觉对话的精度。
-
公开(公告)号:CN110375733B
公开(公告)日:2021-05-25
申请号:CN201910727980.8
申请日:2019-08-08
Applicant: 中国科学院自动化研究所
IPC: G01C21/16 , G01C25/00 , B62D57/032
Abstract: 本发明实施例提供一种十字龙门足式机器人测试平台,用于检测足式机器人在不同状态下的步态参数,技术方案为:包括支撑保护装置、力传感器和控制器,所述支撑保护装置包括支撑机构和夹持机构,所述夹持机构用于固定机器人,所述力传感器固定连接于所述支撑机构,借以检测所述支撑机构受到的力信息,所述力传感器与所述控制器通讯连接。本发明的有益效果为:通过本发明的测试平台得到的数据信息,无需物理建模便可精准得到对机器人进行步态规划时所需的实时惯性力矩数据,减少机器人实际行走与规划不符甚至机器人无法行走的情况的发生,同时,本测试平台结构简单,操作方便,成本低,数据结果准确可靠。
-
公开(公告)号:CN112397089A
公开(公告)日:2021-02-23
申请号:CN201910766157.8
申请日:2019-08-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种语音发出者身份识别方法、装置、计算机设备及存储介质,所述方法包括:调用语音采集设备采集会议过程的全程语音,调用图像采集设备采集会议过程的全程图像;从全程语音中提取单通道语音,从单通道语音中分别提取多个语音分段数据流;针对每个语音分段数据流,从全程图像中截取与该语音分段数据流对应的图像分段数据流;将每个语音分段数据流输入听觉处理子网络模型中,得到多个对应听觉隐层特征,将每个图像分段数据流输入视觉处理子网络模型中,得到多个对应视觉隐层特征;选择听觉隐层特征以及视觉隐层特征进行融合,根据融合结果识别语音发出者身份。
-
公开(公告)号:CN107437417B
公开(公告)日:2020-02-14
申请号:CN201710651866.2
申请日:2017-08-02
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及语音识别处理领域,提出了一种基于循环神经网络的语音数据增强的方法,旨在解决循环神经网络在语音识别中由于模拟语音识别中不规则语法现象引起的过度建模词间依赖的问题。该方法包括:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和声学特征向量获得语音数据的语句标签序列;通过决策聚类预设的标注文件和语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果第一随机数γ大于调整比例α,在边界文件所指示的位置对上述语音数据进行增强处理。该方法够快速、方便地增加训练数据中不规则的口语化现象。
-
公开(公告)号:CN110428818A
公开(公告)日:2019-11-08
申请号:CN201910732557.7
申请日:2019-08-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于语音识别领域,具体涉及一种低资源多语言的语音识别模型、语音识别方法,旨在为了解决多语言混用状态下小语种语言识别准确度低的问题。本发明语音识别模型为端到端的语音识别模型,该模型中子词词表为多语言子词词表,所述多语言子词词表为设定低资源语种的标注文本与设定高资源语种的标注文本合并起来采用BPE算法共同生成多语言的符号词表;所述语音识别模型的训练数据为设定低资源语种的伪标注训练数据和设定高资源语种的训练数据的合并数据。本发明提高了包含小语种的多语种语音信息识别的准确度。
-
公开(公告)号:CN108572731A
公开(公告)日:2018-09-25
申请号:CN201810217885.9
申请日:2018-03-16
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机图形处理领域,提出了一种基于多Kinect和UE4动捕数据表现方方法和装置,旨在解决kinect的动作捕捉数据的动画展现中出现的捕捉范围有限、模型骨架结构,关节点数量受限制的问题。该方法的具体实施方式包括:接收多台kinect捕捉的骨架数据,根据预设的坐标转换矩阵,对上述人体骨架数据进行校准,得到各人体骨架数据在参考坐标系下的坐标数据,并作为参考骨架数据;经加权平均处理得到人物的平均骨架;通过预设的映射关系将上述平均骨架转换为UE4图形程序中对应角色模型的角色模型数据;根据角色模型数据,使用UE4引擎进行骨骼动画的展示。本发明在对人体骨架动画展示过程中,扩大了捕捉范围,且对UE4中的3D模型的骨架结构,关节点数量等不做限制。
-
公开(公告)号:CN108304911A
公开(公告)日:2018-07-20
申请号:CN201810018789.1
申请日:2018-01-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及知识抽取领域,具体涉及一种基于记忆神经网络的知识抽取方法以及系统和设备,目的在于解决现有技术中存在的信息冗余问题。本发明在给定预定义关系类型的前提下,首先利用卷积神经网络获取输入文本中可能具有的关系类型,及其语义编码向量;再利用双向长短时记忆神经网络进行语义编码,得到语义向量;将关系类型作为双向长短时记忆网络的初始值以及解码模块中的第一个标签,进而将关系类型信息融入到编码信息以及解码模块的标签信息中;最后采用单向长短时记忆网络结构的解码模块得到标签序列,然后通过解析标签序列得到结构化信息。本发明不但极大地提高了结构化信息抽取的效率,而且克服了现有技术中存在的信息冗余问题。
-
公开(公告)号:CN104217008B
公开(公告)日:2018-03-13
申请号:CN201410475211.0
申请日:2014-09-17
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了一种互联网人物视频交互式标注方法和系统,所述方法包括:提取待标注视频中的人脸序列和周边文本中的人名;以人名为文本关键词,利用搜索引擎获得相应人物网络图像集合;计算人脸序列的重要性得分,人脸序列的两两合并推荐得分,以及人脸序列与人物网络图像的相似性,根据上述性质,确定标注时予以显示的人脸序列、人名及人物网络图像;通过多种用户交互操作,产生相应标注行为,实现对视频中人物的标注。本发明通过挖掘多种与待标注视频及人物相关的资源,并设计友好多样的用户交互方式,可简化标注过程,辅助标注决策,有效缓解标注者不认识待标注人物,导致标注过程难以进行的问题,能够大幅度提高人物视频标注的效率和精度。
-
公开(公告)号:CN107563295A
公开(公告)日:2018-01-09
申请号:CN201710656830.3
申请日:2017-08-03
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机图形处理领域,提出了一种基于多Kinect的全方位人体追踪方法和设备,旨在解决人体在受到遮挡的环境中,或部分相机角度不佳等原因造成的信息缺失而无法获取完整运动信息的问题。该方法的具体实施方式包括:接收终端设备所发送的人体骨架的骨架数据;匹配该骨架数据,根据匹配结果将属于同一人的骨架数据分为一组;根据该骨架数据和该骨架数据所对应人体骨架的历史数据确定出各人体骨架的骨架图像为正面或为反面,并对所确定的骨架图像进行翻转处理;对所确定的骨架图像进行惯性处理,确定该人体骨架的位置和运动姿势。该实施方式实现了对人体骨架稳定连续的追踪。
-
公开(公告)号:CN103559374B
公开(公告)日:2016-06-22
申请号:CN201310601250.6
申请日:2013-11-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种多子网格模型上进行面分裂型曲面细分的方法。该方法步骤包括:读取网格模型的所有子网格数据和uv坐标,以及其他关联属性值,如法向,颜色等;建立模型点、边、面拓扑数据结构;根据细分方法几何规则,计算细分曲面的新顶点坐标,并计算它们对应的uv坐标和其它属性值;根据细分方法的拓扑规则,更新细分模型的子网格数据、uv坐标和其它属性值;如果需要下一次细分,更新拓扑数据结构,重复上述过程。细分后网格模型的子网格带有原子网格的所有属性,可以直接用于渲染显示,除大幅提升模型细节和画质外,该发明也提高建模人员开发效率,减少模型文件容量,优化传输效率。
-
-
-
-
-
-
-
-
-