-
公开(公告)号:CN101268505A
公开(公告)日:2008-09-17
申请号:CN200680034868.7
申请日:2006-12-27
Applicant: 三菱电机株式会社
Inventor: 赖古纳唐·拉达克里希南 , 迈克尔·西拉库萨 , 阿贾伊·迪瓦卡兰 , 大塚功
CPC classification number: H04N21/4394 , G06K9/00718 , G10L25/00 , H04N21/235 , H04N21/435 , H04N21/8456 , Y10S707/99942 , Y10S707/99943 , Y10S707/99945 , Y10S707/99948
Abstract: 一种利用视频的音频信号和类别的集合对该视频进行分类的方法。将在集合中选定的分类合并为重要类别子集,该重要类别子集对于具体精彩场面任务是至关重要的,集合的剩余分类被合并为其它类别子集。所述重要类别子集和其他类别子集通过训练用音频数据进行训练以形成任务特有的分类器。接着,利用该任务特有的分类器,所述音频信号可被分类为重要音频信号或其他音频信号,以在对应于所述具体的精彩场面任务的视频中识别精彩场面。被分类的音频信号可用于对所述视频进行分段和摘要。
-
公开(公告)号:CN101441872B
公开(公告)日:2011-09-14
申请号:CN200810174860.1
申请日:2008-11-10
Applicant: 三菱电机株式会社
Inventor: 凯文·W·威尔森 , 阿贾伊·迪瓦卡兰 , 比克沙·罗摩克里希纳 , 帕里斯·斯马拉格迪斯
IPC: G10L21/02
CPC classification number: G10L21/0208 , G10L21/02 , G10L21/0232 , G10L21/0272
Abstract: 本发明涉及利用受限非负矩阵分解对声学信号去噪。一种对混合信号去噪的方法和系统。对所述混合信号应用受限非负矩阵分解(NMF)。NMF受到去噪模型的限制,其中所述去噪模型包括训练声学信号和训练噪声信号二者的训练基矩阵、以及这些训练基矩阵的权重的统计量。所述应用产生了所述混合信号的所述声学信号的基矩阵的权重。求取所述声学信号的所述基矩阵的所述权重与所述训练声学信号和所述训练噪声信号二者的训练基矩阵的乘积以重构所述声学信号。所述混合信号可以是语音和噪声。
-
公开(公告)号:CN101268505B
公开(公告)日:2011-08-17
申请号:CN200680034868.7
申请日:2006-12-27
Applicant: 三菱电机株式会社
Inventor: 赖古纳唐·拉达克里希南 , 迈克尔·西拉库萨 , 阿贾伊·迪瓦卡兰 , 大塚功
CPC classification number: H04N21/4394 , G06K9/00718 , G10L25/00 , H04N21/235 , H04N21/435 , H04N21/8456 , Y10S707/99942 , Y10S707/99943 , Y10S707/99945 , Y10S707/99948
Abstract: 一种利用视频的音频信号和类别的集合对该视频进行分类的方法。将在集合中选定的分类合并为重要类别子集,该重要类别子集对于具体精彩场面任务是至关重要的,集合的剩余分类被合并为其它类别子集。所述重要类别子集和其他类别子集通过训练用音频数据进行训练以形成任务特有的分类器。接着,利用该任务特有的分类器,所述音频信号可被分类为重要音频信号或其他音频信号,以在对应于所述具体的精彩场面任务的视频中识别精彩场面。被分类的音频信号可用于对所述视频进行分段和摘要。
-
公开(公告)号:CN101247470A
公开(公告)日:2008-08-20
申请号:CN200810001375.4
申请日:2008-01-16
Applicant: 三菱电机株式会社
CPC classification number: G06T7/20 , G06N99/005
Abstract: 一种由计算机实现的方法,其通过首先从不同种类的视频中提取特征向量来检测视频中的场景边界。然后使用支持向量机将特征向量分类为场景边界。所述支持向量机被训练为与所述视频的所述不同种类无关。
-
公开(公告)号:CN1910580A
公开(公告)日:2007-02-07
申请号:CN200580002448.6
申请日:2005-01-07
Applicant: 三菱电机株式会社
CPC classification number: H04N9/8205 , G06F17/30787 , G06F17/30843 , G06F17/30858 , G11B27/28 , H04N9/8042 , H04N21/42646 , H04N21/4325 , H04N21/4394 , H04N21/44008 , H04N21/4508 , H04N21/4542 , H04N21/84
Abstract: 系统和方法对存储在分割成区间序列的压缩多媒体文件中的多媒体进行概括,多媒体的内容例如是视频信号、音频信号、文本和二进制数据。关联的元数据文件包含各区间的索引信息和重要性级别。重要性级别在闭间隔中是连续的。对闭间隔选择重要性级别的阈值,仅再现多媒体中、具有比重要性级别的阈值高的特定的重要性级别的片断。也可针对由多个区间构成的固定长度的窗口、即滑动窗口求出重要性级别。并且,利用音量等系数来对重要性级别进行加权。
-
公开(公告)号:CN101247470B
公开(公告)日:2011-02-02
申请号:CN200810001375.4
申请日:2008-01-16
Applicant: 三菱电机株式会社
CPC classification number: G06T7/20 , G06N99/005
Abstract: 一种由计算机实现的方法,其通过首先从不同种类的视频中提取特征向量来检测视频中的场景边界。然后使用支持向量机将特征向量分类为场景边界。所述支持向量机被训练为与所述视频的所述不同种类无关。
-
公开(公告)号:CN100538698C
公开(公告)日:2009-09-09
申请号:CN200580002448.6
申请日:2005-01-07
Applicant: 三菱电机株式会社
CPC classification number: H04N9/8205 , G06F17/30787 , G06F17/30843 , G06F17/30858 , G11B27/28 , H04N9/8042 , H04N21/42646 , H04N21/4325 , H04N21/4394 , H04N21/44008 , H04N21/4508 , H04N21/4542 , H04N21/84
Abstract: 系统和方法对存储在分割成区间序列的压缩多媒体文件中的多媒体进行概括,多媒体的内容例如是视频信号、音频信号、文本和二进制数据。关联的元数据文件包含各区间的索引信息和重要性级别。重要性级别在闭间隔中是连续的。对闭间隔选择重要性级别的阈值,仅再现多媒体中、具有比重要性级别的阈值高的特定的重要性级别的片断。也可针对由多个区间构成的固定长度的窗口、即滑动窗口求出重要性级别。并且,利用音量等系数来对重要性级别进行加权。
-
公开(公告)号:CN101441872A
公开(公告)日:2009-05-27
申请号:CN200810174860.1
申请日:2008-11-10
Applicant: 三菱电机株式会社
Inventor: 凯文·W·威尔森 , 阿贾伊·迪瓦卡兰 , 比克沙·罗摩克里希纳 , 帕里斯·斯马拉格迪斯
IPC: G10L21/02
CPC classification number: G10L21/0208 , G10L21/02 , G10L21/0232 , G10L21/0272
Abstract: 本发明涉及利用受限非负矩阵分解对声学信号去噪。一种对混合信号去噪的方法和系统。对所述混合信号应用受限非负矩阵分解(NMF)。NMF受到去噪模型的限制,其中所述去噪模型包括训练声学信号和训练噪声信号二者的训练基矩阵、以及这些训练基矩阵的权重的统计量。所述应用产生了所述混合信号的所述声学信号的基矩阵的权重。求取所述声学信号的所述基矩阵的所述权重与所述训练声学信号和所述训练噪声信号二者的训练基矩阵的乘积以重构所述声学信号。所述混合信号可以是语音和噪声。
-
-
-
-
-
-
-