从视频生成同步的声音
    11.
    发明公开

    公开(公告)号:CN114787920A

    公开(公告)日:2022-07-22

    申请号:CN202180007102.4

    申请日:2021-01-11

    Inventor: 张阳 淦创 王大阔

    Abstract: 本文的实施例描述了当训练机器学习(ML)系统时使用的音频转发正则化器和信息瓶颈。音频转发正则化器接收音频训练数据,并识别训练数据中的视觉不相关声音和视觉相关声音。通过控制信息瓶颈,音频转发正则化器将主要涉及视觉不相关声音的数据转发到生成器,同时滤除视觉相关声音。生成器还从视觉编码器接收关于视觉对象的数据,该数据是从视觉训练数据导出的。由此,当被训练时,生成器接收关于视觉对象的数据和关于视觉不相关声音的数据(但几乎没有或没有关于视觉相关声音的数据)。由此,在执行阶段期间,生成器可生成与视觉对象相关的声音,而不将视觉不相关声音添加到视频。

    用于具有用户交互的时间序列预测的自动深度学习架构选择

    公开(公告)号:CN116438555A

    公开(公告)日:2023-07-14

    申请号:CN202180071234.3

    申请日:2021-11-12

    Abstract: 一种用于自动生成用于时间序列预测的深度神经网络架构的系统和方法。该系统包括处理器,用以:接收与当前用例相关联的预测上下文;基于相关联的预测上下文,选择被配置用于当前用例时间序列预测任务的预测模型网络;复制所选择的预测模型网络以创建多个候选预测模型网络;将时间序列数据输入到多个候选预测模型网络中的每个候选预测模型网络架构;利用输入时间序列数据并行地训练多个候选预测模型网络中的每个相应候选预测模型网络;通过在并行训练的同时应用一个或多个模型参数的相应不同集合来修改多个候选预测模型网络中的每个候选预测模型网络架构;以及确定用于解决当前用例时间序列预测任务的最适合的经修改预测模型网络。

    用于光信号检测和识别的粗略到精细注意网络

    公开(公告)号:CN116235222A

    公开(公告)日:2023-06-06

    申请号:CN202180053881.1

    申请日:2021-07-21

    Abstract: 一种交通工具灯信号检测和识别方法、系统和计算机程序产品,包括:使用粗略注意模块来界定汽车的图像的一个或多个区域,以生成一个或多个界定区域,图像包括由汽车信号生成的刹车灯和信号灯中的至少一者,一个或多个区域包括被照亮的部分,使用精细注意模块从一个或多个界定区域去除噪声,以生成一个或多个无噪声界定区域,以及从一个或多个无噪声界定区域中标识刹车灯和信号灯中的至少一者。

    用于视听事件定位的双模态关系网络

    公开(公告)号:CN116171473A

    公开(公告)日:2023-05-26

    申请号:CN202180056375.8

    申请日:2021-07-05

    Abstract: 可以提供用于视听事件定位的双模态关系网络。可以接收用于视听事件定位的视频馈送。基于视频馈送的所提取的音频特征和视频特征的组合,可以通过运行第一神经网络来确定视频馈送中的信息特征和区域。基于由第一神经网络确定的视频馈送中的信息特征和区域,可以通过运行第二神经网络来确定关系感知视频特征。基于视频馈送中的信息特征和区域,可以通过运行第三神经网络来确定关系感知音频特征。可以通过运行第四神经网络基于相关感知视频特征和相关感知音频特征获得双模态表示。可以将双模态表示输入到分类器以识别视频馈送中的视听事件。

    少镜头时间动作定位的新框架
    17.
    发明公开

    公开(公告)号:CN114556331A

    公开(公告)日:2022-05-27

    申请号:CN202080072195.4

    申请日:2020-10-14

    Abstract: 提供了促进基于图形卷积网络的少镜头时间动作定位的系统和技术。图组件可以生成对时间动作分类的支持集建模的图。图的节点可以对应于支持集中的相应时间动作分类。图的边可对应于相应时间动作分类之间的相似性。卷积组件可以对图执行卷积,从而使得图的节点输出指示相应时间动作分类和待分类动作之间的匹配水平的相应匹配分数。实例化组件可以基于表示待分类动作的提议特征向量将相应输入向量输入到节点中。相应时间动作分类可以对应于相应示例特征向量,并且相应输入向量可以是相应示例特征向量和所提议的特征向量的级联。

Patent Agency Ranking