-
公开(公告)号:CN115188378A
公开(公告)日:2022-10-14
申请号:CN202210789741.7
申请日:2022-07-06
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于语音交互的目标识别视觉测距方法及系统,首先对摄像头进行标定以获得摄像头的各种参数,获取的参数存入系统供测距部分使用,然后将输入的语音识别为文字,再与实时视频一并送入目标检测网络中进行特定目标的识别与标识,最后对物体进行测距以明确摄像头与物体之间的距离从而为实现居家机器人抓取目标提供一种系统上的辅助。该系统综合了语音和计算机视觉在各自领域的优势,以图像识别为基础,融合语音以及测距技术实现对场景内目标物的精确判断和位置信息的获取。通过语音图像之间的交叉互补,能够减少系统的时间复杂度,能有效地提高居家机器人的实用性,为人机交互领域的指令识别与执行提供了一种新的集成方法和系统。
-
公开(公告)号:CN116778289A
公开(公告)日:2023-09-19
申请号:CN202310726446.1
申请日:2023-06-19
Applicant: 南京邮电大学
Abstract: 本发明属于深度学习技术领域,具体涉及一种用于分类的Transformer网络模型,公开了一种基于Transformer进行音视频联合场景分类方法包括,通过利用Transformer单元对嘈杂的音频、视频和音视频分别进行早期融合和特征提取;对融合后的特征表示利用EfficientNetV2_S单元进行视频侧的预训练网络;通过利用分类单元进行音频特征、视频特征以及音视频联合特征三者加权求和所得的特征输入到分类器中进行场景分类。本发明提出了将原本的注意力机制替换为Transformer结构,将原本的预训练模型从ResNet50替换为EfficientNetV2_S,提高了分类的准确度,通过Transformer单元的运用提高了场景分类的准确率,提升了多模态之间的关联性。
-