-
公开(公告)号:CN119698658A
公开(公告)日:2025-03-25
申请号:CN202380058927.8
申请日:2023-06-02
Applicant: 三菱电机株式会社
IPC: G10L21/0208 , G10L21/0216
Abstract: 公开了一种用于混响减小的系统和方法。第一深度神经网络(DNN)从包括目标直接路径信号和目标直接路径信号的混响的声学信号的混合产生目标直接路径信号的第一估计。估计对第一估计的房间脉冲响应(RIR)进行建模的滤波器。滤波器在应用于目标直接路径信号的第一估计时根据距离函数生成最接近声学信号的混合与目标直接路径信号的第一估计之间的残差的结果。估计的滤波器被用于对RIR进行建模。
-
公开(公告)号:CN118891675A
公开(公告)日:2024-11-01
申请号:CN202380027180.X
申请日:2023-02-28
Applicant: 三菱电机株式会社
IPC: G10L25/45 , G10L21/0272 , G10L21/0208 , G10L21/0224
Abstract: 提供了一种用于低延迟音频信号增强的系统和方法。使用第一滑动窗口方法将音频信号的输入混合分割成重叠帧序列。第一滑动窗口方法包括具有与对应帧的窗口相关联的第一宽度和与第一滑动窗口方法的窗口的移位相关联的移位长度的第一窗口函数。接着,使用第一DNN、频域因果线性滤波器和第二DNN来处理每个帧,以针对每个经处理的帧生成最终增强重叠帧。然后,使用与第二窗口函数相关联的第二滑动窗口方法来组合最终增强重叠帧,所述第二窗口函数具有比第一宽度小的第二宽度以及与第一滑动窗口方法相同的移位长度。
-
公开(公告)号:CN118805096A
公开(公告)日:2024-10-18
申请号:CN202280093038.0
申请日:2022-11-25
Applicant: 三菱电机株式会社
Abstract: 本公开的实施方式公开了用于定位目标声音事件的系统和方法。所述系统通过使用声学传感器收集多个声音事件的声音的声学混合物的第一数字表示。所述系统接收与所述目标声音事件相对应的声音的第二数字表示。此外,所述第一数字表示和所述第二数字表示通过神经网络进行处理,以产生指示相对于所述声学传感器的位置的所述目标声音事件的起源的位置的定位信息。
-
公开(公告)号:CN118451476A
公开(公告)日:2024-08-06
申请号:CN202280080765.3
申请日:2022-10-27
Applicant: 三菱电机株式会社
IPC: G06V10/426 , G06V10/62 , G06V10/82 , G06V20/40 , G06N3/0464 , H04N19/172
Abstract: 本公开的实施方式公开了一种场景感知视频编码器系统。该场景感知视频编码器系统将场景的视频的视频帧序列变换成时空场景图。该时空场景图包括表示场景中的一个或多个静态和动态对象的节点。时空场景图的各个节点皆描述在不同时间实例所述对象(静态对象和动态对象)中的各个对象的外观、位置和/或运动。使用时空变换器将时空场景图的节点嵌入到潜在空间中,该时空变换器对时空场景图的不同节点的与场景的不同时空体积对应的不同组合进行编码。利用注意力得分来对在所述组合中的各个组合中编码的所述不同节点中的各个节点进行加权,该注意力得分是根据该组合中的不同节点的时空位置的相似性来确定的。
-
公开(公告)号:CN117940996A
公开(公告)日:2024-04-26
申请号:CN202280062389.5
申请日:2022-05-12
Applicant: 三菱电机株式会社
IPC: G10L25/30
Abstract: 公开了一种用于检测异常声音的系统和方法。该方法包括接收音频信号的谱图,所述谱图所具有的元素由谱图的时频域中的值限定。每个值均对应于谱图的由时频域中的坐标标识的元素。将谱图的时频域划分为上下文区域和目标区域。由神经网络使用注意力神经过程处理上下文区域和目标区域,以针对坐标在目标区域中的元素恢复谱图的值。将目标区域的元素的恢复值与所划分的目标区域的元素的值进行比较。基于所述比较来确定异常分数。使用所述异常分数执行控制动作。
-
公开(公告)号:CN113574595A
公开(公告)日:2021-10-29
申请号:CN202080021866.4
申请日:2020-01-16
Applicant: 三菱电机株式会社
Abstract: 一种语音识别系统包括用于将输入声学信号转换为编码器状态序列的编码器、用于识别编码器状态序列中的对转录输出进行编码的编码器状态的位置的对齐解码器、用于基于所识别的编码器状态的位置将编码器状态序列划分成分区集合的划分模块、以及确定针对作为输入提交至基于注意力的解码器的编码器状态的每个分区的转录输出的基于注意力的解码器。当接收到声学信号时,系统使用编码器生成编码器状态序列,基于由对齐解码器识别出的编码器状态的位置,将编码器状态序列划分为分区集合,并且将分区集合顺序地提交到基于注意力的解码器中,以产生针对每个所提交的分区的转录输出。
-
公开(公告)号:CN107077860B
公开(公告)日:2021-02-09
申请号:CN201580056485.9
申请日:2015-10-08
Applicant: 三菱电机株式会社
IPC: G10L21/0208 , G10L21/0324 , G10L25/03 , G10L25/30
Abstract: 通过首先从环境获取有噪音频信号,方法将该有噪音频信号转换为增强音频信号。通过具有网络参数的增强网络来处理该有噪音频信号,以共同产生幅度掩蔽和相位估计。然后,使用所述幅度掩蔽和相位估计来获得增强音频信号。
-
公开(公告)号:CN104067340B
公开(公告)日:2016-06-08
申请号:CN201280067875.2
申请日:2012-12-11
Applicant: 三菱电机株式会社
IPC: G10L21/0216
CPC classification number: G10L21/0216 , G10L21/0232
Abstract: 从包括噪声和语音的混合信号中产生增强的语音。利用矢量泰勒级数来估计混合信号中的噪声。估计的噪声依据最小均方差。然后,从混合信号中减去噪声以获得增强的语音。
-
公开(公告)号:CN119013726A
公开(公告)日:2024-11-22
申请号:CN202380031211.9
申请日:2023-03-31
Applicant: 三菱电机株式会社
Inventor: G·维切恩 , E·泰兹尼斯 , A·S·苏布拉马尼亚 , J·勒鲁克斯
IPC: G10L21/0308 , G10L25/30 , G06N3/02
Abstract: 本公开的实施方式公开了一种用于提取目标声音信号的系统和方法。该系统收集声音信号的混合。该系统选择识别要从声音信号的混合提取的目标声音信号的查询,该查询包括一个或更多个标识符。各个标识符存在于一个或更多个标识符的预定集合中并且定义声音信号的混合的互容特性和互斥特性中的至少一个。该系统确定连接所提取的一个或更多个标识符的一个或更多个逻辑运算符。该系统将一个或更多个标识符和所提取的逻辑运算符变换为数字表示。该系统执行神经网络,该神经网络被训练为通过将数字表示与神经网络的中间层的中间输出混合来提取目标声音信号。
-
公开(公告)号:CN113574595B
公开(公告)日:2023-11-24
申请号:CN202080021866.4
申请日:2020-01-16
Applicant: 三菱电机株式会社
IPC: G10L15/16 , G06N3/044 , G06N3/0442 , G06N3/08 , G10L15/32
Abstract: 本申请实施例提供一种语音识别系统、方法以及非暂时性计算机可读存储介质,该语音识别系统包括用于将输入声学信号转换为编码器状态序列的编码器、用于识别编码器状态序列中的对转录输出进行编码的编码器状态的位置的对齐解码器、用于基于所识别的编码器状态的位置将编码器状态序列划分成分区集合的划分模块、以及确定针对作为输入提交至基于注意力的解码器的编码器状态的每个分区的转录输出的基于注意力的解码器。当接收到声学信号时,系统使用编码器生成编码器状态序列,基于由对齐解码器识别出的编码器状态的位置,将编码器状态序列划分为分区集合,并且将分区集合顺序地提交到基于注意力的解码器中,以产生针对每个所
-
-
-
-
-
-
-
-
-