用于声音事件定位和检测的方法和系统

    公开(公告)号:CN118805096A

    公开(公告)日:2024-10-18

    申请号:CN202280093038.0

    申请日:2022-11-25

    Abstract: 本公开的实施方式公开了用于定位目标声音事件的系统和方法。所述系统通过使用声学传感器收集多个声音事件的声音的声学混合物的第一数字表示。所述系统接收与所述目标声音事件相对应的声音的第二数字表示。此外,所述第一数字表示和所述第二数字表示通过神经网络进行处理,以产生指示相对于所述声学传感器的位置的所述目标声音事件的起源的位置的定位信息。

    场景感知视频编码器系统和方法
    12.
    发明公开

    公开(公告)号:CN118451476A

    公开(公告)日:2024-08-06

    申请号:CN202280080765.3

    申请日:2022-10-27

    Abstract: 本公开的实施方式公开了一种场景感知视频编码器系统。该场景感知视频编码器系统将场景的视频的视频帧序列变换成时空场景图。该时空场景图包括表示场景中的一个或多个静态和动态对象的节点。时空场景图的各个节点皆描述在不同时间实例所述对象(静态对象和动态对象)中的各个对象的外观、位置和/或运动。使用时空变换器将时空场景图的节点嵌入到潜在空间中,该时空变换器对时空场景图的不同节点的与场景的不同时空体积对应的不同组合进行编码。利用注意力得分来对在所述组合中的各个组合中编码的所述不同节点中的各个节点进行加权,该注意力得分是根据该组合中的不同节点的时空位置的相似性来确定的。

    用于检测异常声音的方法和系统
    13.
    发明公开

    公开(公告)号:CN117940996A

    公开(公告)日:2024-04-26

    申请号:CN202280062389.5

    申请日:2022-05-12

    Abstract: 公开了一种用于检测异常声音的系统和方法。该方法包括接收音频信号的谱图,所述谱图所具有的元素由谱图的时频域中的值限定。每个值均对应于谱图的由时频域中的坐标标识的元素。将谱图的时频域划分为上下文区域和目标区域。由神经网络使用注意力神经过程处理上下文区域和目标区域,以针对坐标在目标区域中的元素恢复谱图的值。将目标区域的元素的恢复值与所划分的目标区域的元素的值进行比较。基于所述比较来确定异常分数。使用所述异常分数执行控制动作。

    用于具有触发注意力的端到端语音识别的系统和方法

    公开(公告)号:CN113574595A

    公开(公告)日:2021-10-29

    申请号:CN202080021866.4

    申请日:2020-01-16

    Abstract: 一种语音识别系统包括用于将输入声学信号转换为编码器状态序列的编码器、用于识别编码器状态序列中的对转录输出进行编码的编码器状态的位置的对齐解码器、用于基于所识别的编码器状态的位置将编码器状态序列划分成分区集合的划分模块、以及确定针对作为输入提交至基于注意力的解码器的编码器状态的每个分区的转录输出的基于注意力的解码器。当接收到声学信号时,系统使用编码器生成编码器状态序列,基于由对齐解码器识别出的编码器状态的位置,将编码器状态序列划分为分区集合,并且将分区集合顺序地提交到基于注意力的解码器中,以产生针对每个所提交的分区的转录输出。

    用于场景-感知音频-视频表示的方法和系统

    公开(公告)号:CN117678017A

    公开(公告)日:2024-03-08

    申请号:CN202280049225.9

    申请日:2022-04-22

    Abstract: 实施方式公开了一种用于场景的场景‑感知音频‑视频表示的方法和系统。场景‑感知音频‑视频表示对应于通过边连接的节点的图。图中的节点表示场景中的对象的视频特征。图中的连接两个节点的边表示场景中的相应两个对象的交互。在图中,至少一个或更多个边与由相应两个对象的交互发出的声音的音频特征相关联。场景的音频‑视频表示的图可以被用于执行各种不同任务。任务的示例包括动作识别、异常检测、声音定位和增强、噪声背景音去除和系统控制中的一者或组合。

    低延迟字幕系统
    18.
    发明公开

    公开(公告)号:CN117597708A

    公开(公告)日:2024-02-23

    申请号:CN202280043057.2

    申请日:2022-05-10

    Abstract: 提供了一种场景字幕系统。该场景字幕系统包括:接口,其被配置为获取包括帧和声音数据的场景数据信号的流;存储器,其存储包括场景编码器、定时解码器、定时检测器和字幕解码器的计算机可执行场景字幕模型,其中,视听编码器由定时解码器和定时检测器和字幕解码器共享;以及处理器,其与存储器连接。处理器被配置为执行以下步骤:利用视听编码器从场景数据信号提取场景特征;利用定时检测器确定生成字幕的定时,其中,该定时布置在场景数据信号的流的早期阶段;以及根据该定时通过使用字幕解码器基于场景特征生成字幕。

    使用基于图的时间分类训练神经网络

    公开(公告)号:CN116547674A

    公开(公告)日:2023-08-04

    申请号:CN202180071325.7

    申请日:2021-07-02

    Abstract: 提供了一种用于使用由代表标签和标签之间的转移的边连接的节点的有向图,用基于图的时间分类(GTC)目标函数来训练神经网络的方法。有向图指定了标签序列和概率分布序列之间的非单调对齐以及对标签重复的约束中的一种或组合。该方法包括:实施神经网络,以将观察序列变换为概率分布序列;以及基于GTC目标函数更新神经网络的参数,GTC目标函数被配置为使通过将有向图展开到观察序列的长度并将每个展开的节点和边的序列映射到可能的标签序列而生成的所有可能的标签序列的条件概率之和最大化。

    音频信号处理系统、音频信号处理方法及计算机可读存储介质

    公开(公告)号:CN112567458B

    公开(公告)日:2023-07-18

    申请号:CN201980052229.0

    申请日:2019-02-13

    Abstract: 用于音频信号处理的系统和方法包括输入接口,其接收包括目标音频信号和噪声的混合体的有噪音频信号。编码器将有噪音频信号的每个时频区间映射到指示目标信号的相位的相位相关值的一个或更多个相位量化码本中的一个或更多个相位相关值。针对有噪音频信号的每个时频区间计算幅度比值,该幅度比值指示目标音频信号的幅度与有噪音频信号的幅度之比。滤波器基于相位相关值和幅度比值从有噪音频信号消除噪声,以产生增强音频信号。输出接口输出增强音频信号。

Patent Agency Ranking