-
公开(公告)号:CN116229198A
公开(公告)日:2023-06-06
申请号:CN202211536578.X
申请日:2022-12-02
Applicant: 罗伯特·博世有限公司
IPC: G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06N3/096
Abstract: 提供了用于扩充视觉转换器的系统和方法。一种计算机实现的系统和方法向机器学习系统(诸如视觉转换器)提供改进的训练。该系统和方法包括至少使用内容图像、第一样式图像和第二样式图像来执行神经样式迁移扩充。至少基于内容图像的内容和第一样式图像的第一样式生成第一扩充图像。至少基于内容图像的内容和第二样式图像的第二样式生成第二扩充图像。用至少包括内容图像、第一扩充图像和第二扩充图像的训练数据来训练机器学习系统。为机器学习系统计算损失输出。损失输出至少包括一致性损失,该一致性损失计及由机器学习系统提供的关于内容图像、第一扩充图像和第二扩充图像中的每一个的预测标签。基于该损失更新机器学习系统的至少一个参数。
-
公开(公告)号:CN117011751A
公开(公告)日:2023-11-07
申请号:CN202310505540.4
申请日:2023-05-05
Applicant: 罗伯特·博世有限公司
Abstract: 本发明涉及将视频帧的帧序列转换为场景的场景序列的方法,具有:从帧序列的每个视频帧中提取特征;将属于每个视频帧的特征转换为第一工作空间中特征表示,帧序列中相应视频帧的位置被编码到特征表示中;用变换器网络的可训练编码器确定每个特征表示分别与所有其他特征表示的特征交互,特征交互表征帧预测;将属于每个已确定场景的类别转换为第二工作空间中场景表示,场景序列中相应场景的位置被编码到场景表示中;用变换器网络的可训练解码器确定场景表示分别与所有其他场景表示的场景交互;用解码器确定每个场景交互与每个特征交互的场景特征交互;用解码器从场景特征交互中至少确定场景序列中对帧序列和已确定场景而言最合理的下一场景的类别。
-