声音数据检索系统及用于该系统的程序

    公开(公告)号:CN103123644A

    公开(公告)日:2013-05-29

    申请号:CN201210465128.6

    申请日:2012-11-16

    Inventor: 神田直之

    CPC classification number: G10L15/02 G06F16/685 G10L2015/025 G10L2015/088

    Abstract: 在声音数据检索系统中,使得能够容易地进行检索结果的正解/非正解的判断。在声音数据检索系统中,具备:输入装置(112),输入关键字;音素变换部(106),将输入的上述关键字变换为音素标音;声音数据搜索部(105),基于音素标音的关键字,在声音数据中检索讲出该关键字的部分;对照关键字生成部(107),基于音素标音的关键字,生成用户有可能听取混淆的与该关键字不同的对照关键字的集合;以及检索结果提示部(110),向用户提示来自上述声音数据搜索部(105)的检索结果及来自上述对照关键字生成部(107)的上述对照关键字。

    声音数据检索系统及用于该系统的程序

    公开(公告)号:CN103123644B

    公开(公告)日:2016-11-16

    申请号:CN201210465128.6

    申请日:2012-11-16

    Inventor: 神田直之

    CPC classification number: G10L15/02 G06F16/685 G10L2015/025 G10L2015/088

    Abstract: 在声音数据检索系统中,使得能够容易地进行检索结果的正解/非正解的判断。在声音数据检索系统中,具备:输入装置(112),输入关键字;音素变换部(106),将输入的上述关键字变换为音素标音;声音数据搜索部(105),基于音素标音的关键字,在声音数据中检索讲出该关键字的部分;对照关键字生成部(107),基于音素标音的关键字,生成用户有可能听取混淆的与该关键字不同的对照关键字的集合;以及检索结果提示部(110),向用户提示来自上述声音数据搜索部(105)的检索结果及来自上述对照关键字生成部(107)的上述对照关键字。

    声音数据检索系统以及声音数据的检索方法

    公开(公告)号:CN101533401B

    公开(公告)日:2012-07-11

    申请号:CN200810176181.8

    申请日:2008-11-14

    CPC classification number: G10L15/26 G06F16/685 G10L15/02 G10L2015/088

    Abstract: 本发明提供一种声音数据检索系统以及声音数据的检索方法,降低用户检索声音数据时的键输入的劳力。抽取表现附加了元数据的声音数据的声学信息特征量。然后,在所得到的声学信息特征量的子集合中,仅从元数据中包含的声音数据抽取特定的单词,而抽取不从除此以外的声音数据抽取那样的声学信息特征量集合。将该单词与上述抽取的声学信息特征量的集合对应关联地存储。在所输入的检索键中存在与上述单词一致的单词的情况下,输出与该单词对应的声学信息特征量的集合。

    声音数据检索系统以及声音数据的检索方法

    公开(公告)号:CN101533401A

    公开(公告)日:2009-09-16

    申请号:CN200810176181.8

    申请日:2008-11-14

    CPC classification number: G10L15/26 G06F16/685 G10L15/02 G10L2015/088

    Abstract: 本发明提供一种声音数据检索系统以及声音数据的检索方法,降低用户检索声音数据时的键输入的劳力。抽取表现附加了元数据的声音数据的声学信息特征量。然后,在所得到的声学信息特征量的子集合中,仅从元数据中包含的声音数据抽取特定的单词,而抽取不从除此以外的声音数据抽取那样的声学信息特征量集合。将该单词与上述抽取的声学信息特征量的集合对应关联地存储。在所输入的检索键中存在与上述单词一致的单词的情况下,输出与该单词对应的声学信息特征量的集合。

    讲话者推定方法及讲话者推定装置

    公开(公告)号:CN110223700A

    公开(公告)日:2019-09-10

    申请号:CN201910043264.8

    申请日:2019-01-17

    Abstract: 目的是提供对于任意的人物根据声音和并不一定在讲话中被摄像的人物的图像进行讲话者推定的讲话者推定方法及讲话者推定装置。一种根据声音和图像推定讲话者的讲话者推定方法,具有:输入声音的步骤;从输入的声音中提取表示音质的特征量的步骤;输入图像的步骤;根据输入的图像进行各人物的人物区域的检测的步骤;根据检测出的各个人物区域推定表示音质的特征量的步骤;在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤;计算从声音中提取的表示音质的特征量和根据图像的人物区域推定出的表示音质的特征量的类似度的步骤;以及根据该计算出的类似度推定讲话者的步骤。

Patent Agency Ranking