-
公开(公告)号:CN117456988A
公开(公告)日:2024-01-26
申请号:CN202310190703.4
申请日:2023-02-24
Applicant: 株式会社东芝
Inventor: 笼岛岳彦
Abstract: 本发明提供阈值生成方法、阈值生成装置以及程序。生成能够适当地检测关键字的阈值。在实施方式所涉及的阈值生成方法中,生成针对关键字检测装置设定的阈值。关键字检测装置根据表示包含于声音信号的声音与预先设定的关键字的类似度的关键字评分和阈值的比较结果,检测在声音信号中是否包含关键字。在阈值生成方法中,关于多个参照声音的各个参照声音,计算表示与关键字的类似度的关键字评分。在阈值生成方法中,计算参数,该参数表示包括根据多个参照声音计算出的多个关键字评分的评分集合的分布。在阈值生成方法中,根据表示评分集合的分布的参数,生成阈值。
-
公开(公告)号:CN105340003A
公开(公告)日:2016-02-17
申请号:CN201380077502.8
申请日:2013-06-20
Applicant: 株式会社东芝
Abstract: 根据实施例的语音合成字典创建装置包括第一语音输入单元、第二语音输入单元、确定单元以及创建单元。第一语音输入单元接收第一语音数据的输入。第二语音输入单元接收被认为是适当的语音数据的第二语音数据的输入。确定单元确定第一语音数据的说话人是否与第二语音数据的说话人相同。当确定单元确定第一语音数据的说话人与第二语音数据的说话人相同时,创建单元使用第一语音数据以及与第一语音数据对应的文本来创建语音合成字典。
-
公开(公告)号:CN1870130A
公开(公告)日:2006-11-29
申请号:CN200610080937.X
申请日:2006-05-23
Applicant: 株式会社东芝
CPC classification number: G10L13/10
Abstract: 能够生成具有高逼真度的稳定音调模式的音调模式生成方法,模式选择部分10基于通过分析文本和音素持续时间111获得的语言属性信息100从存储在音调模式存储部分14中的音调模式为每个韵律控制单元选择N个音调模式101和M个音调模式103;模式形状生成部分11基于语言属性信息100融合N个选择的音调模式101以生成融合的音调模式并根据音素持续时间111在时间轴上对该融合的音调模式进行扩展或收缩以生成新的音调模式102;偏移控制部分12从M个选择的音调模式103计算偏移值的统计量并根据该统计量对音调模式102进行变形以输出音调模式104;模式连接部分13连接为每个韵律控制单元生成的音调模式104,进行平滑处理使得在连接边界部分不会出现不连贯,并输出句子模式121。
-
公开(公告)号:CN112447191B
公开(公告)日:2024-03-12
申请号:CN202010126904.4
申请日:2020-02-28
Applicant: 株式会社东芝
Inventor: 笼岛岳彦
IPC: G10L25/84 , G10L21/0208
Abstract: 一种信号处理装置以及信号处理方法。本发明的实施方式涉及信号处理装置以及信号处理方法。提供一种能够有效强调目标声音的信号处理装置以及信号处理方法。一实施方式的信号处理装置具备变换部、第1算出部、第2算出部、以及空间滤波部。变换部将通过在不同的位置检测声音而得到的第1检测信号向时频域变换而得到第2检测信号。第1算出部基于第2检测信号算出第1空间相关矩阵。第2算出部基于将第2检测信号延迟了预定的时间而得到的第3检测信号算出第2空间相关矩阵。空间滤波部基于第1空间相关矩阵以及第2空间相关矩阵生成空间滤波,利用空间滤波对第2检测信号进行滤波。
-
公开(公告)号:CN103021402B
公开(公告)日:2015-09-09
申请号:CN201210058572.6
申请日:2012-03-07
Applicant: 株式会社东芝
IPC: G10L13/02
Abstract: 本发明的实施方式涉及合成字典制作装置及合成字典制作方法。提高声音合成字典的制作效率。合成字典制作装置具备提示单元、录制单元、要否判断单元、字典制作单元和声音合成单元。提示单元向用户提示从上述句子存储单元存储的上述N个(N是自然数,N≥2)句子依次选择的第1句子。录制单元将朗读上述第1句子的用户的声音录制,将该录制波形与上述第1句子相关联存储。要否判断单元,在上述录制单元中存储M个(M是自然数,1≤M<N)上述第1句子的录制波形的状态下,判断要否制作声音合成字典。字典制作单元,在判断需要声音合成字典的制作的场合,制作声音合成字典。声音合成单元,采用由上述字典制作单元制作的声音合成字典,将第2句子变换为合成波形。
-
公开(公告)号:CN1841497B
公开(公告)日:2010-06-16
申请号:CN200610058504.4
申请日:2006-03-10
Applicant: 株式会社东芝
CPC classification number: G10L13/07
Abstract: 一种语音合成系统,其包括语音单元存储部分,音素环境存储部分,音素序列/韵律信息输入部分,多语音单元选择部分,融合语音单元序列生成部分,以及融合语音单元修改/拼接部分。通过在所述融合语音单元序列生成部分中融合多个选中的语音单元,来生成融合语音单元。在所述融合语音单元序列生成部分中,为选中的M个语音单元计算平均功率信息,将所述N个语音单元融合在一起,并校正所述融合语音单元的所述功率信息,使其等于所述M个语音单元的所述平均功率信息。
-
公开(公告)号:CN101449319A
公开(公告)日:2009-06-03
申请号:CN200680054679.6
申请日:2006-10-19
Applicant: 株式会社东芝
IPC: G10L13/04
CPC classification number: G10L13/04
Abstract: 一种语音合成装置,包括:从外部获取用于语音合成的文本数据的文本获取装置;对文本数据执行形态分析/解析的语言处理器;根据文本数据的与韵律和语言有关的属性,诸如重音和词性,向语音合成器输出合成单元串的韵律处理器;根据合成单元串产生合成语音的语音合成器;以及在输出合成语音被积累后或者在其被输出时顺序地再现规定量的输出合成语音的语音波形输出装置。
-
公开(公告)号:CN101276583A
公开(公告)日:2008-10-01
申请号:CN200810096375.7
申请日:2008-03-28
Applicant: 株式会社东芝
CPC classification number: G10L13/07
Abstract: 在一种语音合成中,选择单元从对应于第一节段序列的第一语音单元串中选择一个串,所述第一节段序列通过将对应于目标语音的音位串分割为节段来获得。选择单元基于对应于第二节段序列的最多W个第二语音单元串,重复实施产生对应于第三节段序列的第三语音单元串,其中所述第二节段序列作为第一序列的部分序列,所述第三节段序列通过对第二序列添加节段来获得,并基于每个第三串的估计值从第三串中选择最多W个串。通过使用每个第三串的惩罚系数来修正每个第三串候选的总成本,来获得该数值。该系数基于涉及语音单元数据获取的速度的限制,并依赖于接近所述限制的程度。
-
公开(公告)号:CN1312655C
公开(公告)日:2007-04-25
申请号:CN200410096133.X
申请日:2004-11-26
Applicant: 株式会社东芝
Abstract: 一种语音合成系统,在存储器中存储一组语音单元;基于目标语音的韵律信息,从所述组中选择多个语音单元,所选择的语音单元相应于通过对目标语音的音素串进行分段所获得的多个段的每个段,并且最小化从所选择的语音单元产生的合成语音与目标语音间的失真;通过结合所选择的语音单元,产生相应于每个段的新的语音单元,以便获得分别相应于所述段的多个新的语音单元;并且通过连接新的语音单元产生合成语音。
-
公开(公告)号:CN118800224A
公开(公告)日:2024-10-18
申请号:CN202410212907.8
申请日:2024-02-27
Applicant: 株式会社东芝
Inventor: 笼岛岳彦
IPC: G10L15/16 , G06N3/0464 , G06N3/045 , G10L15/22
Abstract: 信息处理装置、存储介质以及信息处理方法。在使用卷积神经网络模型的情况下,实现使用1个模型来控制计算量和精度的折衷的灵活的安装。实施方式的程序使计算机作为存储控制部、变换部、第1CNN部以及第2CNN部发挥功能。存储控制部从存储装置读出第1步幅参数和第1膨胀参数。变换部使用变换参数,将第1步幅参数变换为第2步幅参数,将第1膨胀参数变换为第2膨胀参数。第1CNN部至少使用第2步幅参数,执行特征向量的第1CNN处理。第2CNN部至少使用第2膨胀参数,执行将第1CNN部的输出向量作为输入的第2CNN处理。
-
-
-
-
-
-
-
-
-