唇语识别方法和装置、模型的训练方法和装置

    公开(公告)号:CN117351555A

    公开(公告)日:2024-01-05

    申请号:CN202210751554.X

    申请日:2022-06-28

    Abstract: 本申请实现方式公开了一种唇语识别方法,包括:获取待识别的多人说话视频;将多人说话视频输入至预设的目标唇语识别模型,由目标唇语识别模型提取多人说话视频的每帧图像中各人员的人脸图像,并根据人脸图像,得到每帧图像中各人员作为说话人的可能性信息,以及根据可能性信息,从每帧图像中筛选出目标说话人,并提取目标说话人的唇部图像,根据唇部图像,得到目标说话人的说话内容。如此,可以先识别出多人说话场景中潜在的真正的目标说话人,然后只需要对真正的目标说话人的唇语进行识别,即可以实现对多人说话视频中的说话人以及对应说话内容的准确识别。本申请实现方式还公开了一种唇语识别装置、唇语识别模型的训练方法和装置。

    视频时刻检索模型的训练方法、装置、设备及存储介质

    公开(公告)号:CN115481279A

    公开(公告)日:2022-12-16

    申请号:CN202110594901.8

    申请日:2021-05-28

    Abstract: 本申请公开了一种视频时刻检索模型的训练方法、装置、设备及存储介质,属于人工智能技术领域。该方法通过第一视频时刻检索模型得到样本数据的预测置信信息和预测视频帧边界后,获取该样本数据的平滑标签,该平滑标签能够模糊参考视频帧边界,减少噪声对模型训练的影响,通过样本数据的平滑标签、预测置信信息、预测视频帧边界和对应的参考视频帧边界,获取该样本视频的第一损失,并基于第一损失符合条件的样本视频,训练第二视频时刻检索模型,避免在训练过程中出现同一个模型的误差累积现象,进一步提升模型训练效果,因此,本申请提出的方法能够减少噪声对模型训练的不利影响,同时提升模型训练效果,从而有效提高视频时刻检索模型的准确率。

    一种视频问题生成方法及装置
    4.
    发明公开

    公开(公告)号:CN114764456A

    公开(公告)日:2022-07-19

    申请号:CN202011599960.6

    申请日:2020-12-30

    Abstract: 本申请提供了一种视频问题生成方法及装置,涉及人工智能AI领域,该方法在执行时,可先获取视频信息以及与视频信息相关的N条历史对话记录信息;其中,N大于或等于1;利用第一神经网络模型从视频信息中提取视觉特征信息,以及利用第二神经网络模型从每条历史对话记录信息中提取对话特征信息;针对每条历史对话记录信息,基于多注意力机制的融合模型对视觉特征信息以及对话特征信息进行特征融合,确定对话特征信息对视觉特征信息的第一表征,以及视觉特征信息对对话特征信息的第二表征;针对每条历史对话记录信息,通过问题生成模型对第一表征以及第二表征进行特征提取,生成与视频信息对应的视频备选问题。通过方式获取的视频问题更加可靠。

Patent Agency Ranking