一种语音匹配方法及相关设备

    公开(公告)号:CN111091824A

    公开(公告)日:2020-05-01

    申请号:CN201911209345.7

    申请日:2019-11-30

    Abstract: 本发明实施例公开了一种语音匹配方法及相关设备,具体可以应用于人工智能AI领域中的智能机器人、智能终端、智能控制、人机交互等多个技术领域,其中的语音匹配方法包括获取音频数据以及视频数据;从所述音频数据中提取待识别的语音信息;从所述视频数据中提取N个用户的唇部运动信息,N为大于1的整数;将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中,得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度;将匹配度最高的用户的唇部运动信息对应的用户,确定为所述待识别的语音信息所属的目标用户。本申请可以提升多人场景中的语音匹配效率和人机交互体验。

    图像处理方法、装置及设备

    公开(公告)号:CN111353336B

    公开(公告)日:2024-04-12

    申请号:CN201811570280.4

    申请日:2018-12-21

    Abstract: 本申请提供一种图像处理方法、装置及设备。该方法包括:提取出视频图像中的前景图像和背景图像,前景图像为人脸图像,将前景图像以及前景图像对应的人脸倾斜角度输入至矫正模型,得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的前景图像,并将矫正后的前景图像与背景图像进行合成,得到矫正后的视频图像。本申请能够调整用户的视线方向,从而可以支持眼神交流,提高了视频交互的交互体验。

    一种语音匹配方法及相关设备

    公开(公告)号:CN111091824B

    公开(公告)日:2022-10-04

    申请号:CN201911209345.7

    申请日:2019-11-30

    Abstract: 本发明实施例公开了一种语音匹配方法及相关设备,具体可以应用于人工智能AI领域中的智能机器人、智能终端、智能控制、人机交互等多个技术领域,其中的语音匹配方法包括获取音频数据以及视频数据;从所述音频数据中提取待识别的语音信息;从所述视频数据中提取N个用户的唇部运动信息,N为大于1的整数;将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中,得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度;将匹配度最高的用户的唇部运动信息对应的用户,确定为所述待识别的语音信息所属的目标用户。本申请可以提升多人场景中的语音匹配效率和人机交互体验。

    图像处理方法、装置及设备

    公开(公告)号:CN111353336A

    公开(公告)日:2020-06-30

    申请号:CN201811570280.4

    申请日:2018-12-21

    Abstract: 本申请提供一种图像处理方法、装置及设备。该方法包括:提取出视频图像中的前景图像和背景图像,前景图像为人脸图像,将前景图像以及前景图像对应的人脸倾斜角度输入至矫正模型,得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的前景图像,并将矫正后的前景图像与背景图像进行合成,得到矫正后的视频图像。本申请能够调整用户的视线方向,从而可以支持眼神交流,提高了视频交互的交互体验。

    道路三维重建方法及装置
    6.
    发明公开

    公开(公告)号:CN118365809A

    公开(公告)日:2024-07-19

    申请号:CN202310119177.2

    申请日:2023-01-18

    Abstract: 一种道路三维重建方法及装置,涉及智能驾驶领域,在利用重建模型实现道路三维重建时,可以降低由于车辆位姿估计的不准确而导致的训练得到的重建模型准确度较低的概率,提高训练得到的重建模型的准确度,进而提高道路三维重建结果的准确性。方法包括:确定包括多个网格点的第一道路重建区域;将多个网格点中的目标网格点的信息输入重建模型,通过重建模型输出目标网格点的第一三维信息和第一语义信息;根据第一车辆位姿、第一三维信息、第一像素点从第一图像到第二图像的光流确定第一车辆位姿满足第一条件,第一像素点为目标网格点在第一图像中对应的像素点;利用重建模型对第一道路重建区域进行语义三维重建。

    注视区域识别方法及装置
    7.
    发明公开

    公开(公告)号:CN115049819A

    公开(公告)日:2022-09-13

    申请号:CN202110221018.4

    申请日:2021-02-26

    Abstract: 本申请涉及一种注视区域识别方法及装置。该方法包括:对获取到的至少一个第一图像进行特征提取,得到各第一图像的特征数据,特征数据包括人脸特征点数据、头部位姿数据和眼部特征数据,第一图像中包括用户的脸部;将特征数据输入训练好的视线估计模型,得到各第一图像对应的注视点坐标和注视概率图,注视概率图包括注视视线处于用户注视的屏幕的各注视区域的概率值;对各第一图像的注视点坐标和注视概率图进行处理,形成注视点队列和概率图队列;根据注视点队列和概率图队列,从多个注视区域中确定出用户注视区域。本申请实施例所提供的方法及装置,进行用户注视区域估计的误差小、抖动低、成本低,能够实现全场景部署。

    图像识别方法和装置
    8.
    发明公开

    公开(公告)号:CN112084849A

    公开(公告)日:2020-12-15

    申请号:CN202010761239.6

    申请日:2020-07-31

    Abstract: 本申请公开了图像识别方法和装置,涉及神经网络技术领域,有助于提高图像识别准确率。该方法包括:获取待识别图像;使用第一神经网络对待识别图像进行特征提取,得到第一特征图;使用第二神经网络对第一特征图进行特征提取,得到第二特征图,并将第二特征图与第一特征图进行点乘,得到第三特征图;其中,第三特征图表示将待识别图像的特征变换到主方向后得到的特征图;基于第三特征图获得待识别图像的第一得分图;基于第三特征图和第一得分图,对待识别图像进行识别。

    一种图像数据处理方法及相关装置

    公开(公告)号:CN111695419A

    公开(公告)日:2020-09-22

    申请号:CN202010365455.9

    申请日:2020-04-30

    Abstract: 本申请涉及人工智能领域,公开了一种图像数据处理方法,可用于机器人进行绘本匹配,本申请在确定图模型中的最邻向量时,按照一定的方向约束进行贪婪搜索,降低了每次搜索的候选池中候选特征向量的数量。本申请提出了一种新的候选池筛选策略,基于方向约束对候选池塞入的邻居向量进行筛选,减少了无效的距离计算。

Patent Agency Ranking