-
公开(公告)号:CN117716421A
公开(公告)日:2024-03-15
申请号:CN202280051577.8
申请日:2022-06-21
Applicant: 国立研究开发法人情报通信研究机构
IPC: G10L13/06
Abstract: 实现一种音频数据生成装置,能够在不使用能够高速处理的GPU的情况下高速地实现高品质的音频生成处理。在音频数据生成装置(100)中,具有通过多流生成部(1)获取多个流数据的结构,此外,通过导入能够学习的卷积处理部(3),能够进行与高精度的音频数据识别装置(Dev_D)的对抗学习。然后,通过利用该对抗学习获取的音频数据生成装置(100),能够进行高速且高精度的音频数据生成处理。此外,由于音频数据生成装置(100)具有简单的结构,所以能够在不使用能够高速处理的GPU的情况下高速地实现高品质的音频数据生成处理(例如,声音合成处理)。
-
公开(公告)号:CN116686043A
公开(公告)日:2023-09-01
申请号:CN202180083413.9
申请日:2021-12-17
Applicant: 国立研究开发法人情报通信研究机构
IPC: G10L13/06
Abstract: 本发明实现信号生成处理装置,该信号生成处理装置实现可以保持语音合成处理或图像信号生成的速度且获得高质量的语音信号或图像信号的语音合成处理或图像信号生成处理。在信号生成处理装置中,第一子模型部~第N子模型部分别使用不同的噪声水平的范围中包含的噪声水平进行第一子模型部~第N子模型部中包含的学习模型的学习处理,从而获取已学习模型。也就是说,在信号生成处理装置中,可以针对各子模型部并行地进行处理,其结果是,可以高速地进行学习处理。另外,在信号生成处理装置中,在预测处理时,可以适当地选择所使用的子模型部进行处理,因此可以执行高精度的语音合成处理或图像生成处理。
-
公开(公告)号:CN109891498A
公开(公告)日:2019-06-14
申请号:CN201780065619.2
申请日:2017-11-06
Applicant: 国立研究开发法人情报通信研究机构
Abstract: 以往,在用户与语音对话装置之间的一系列的对话进行了一定程度之后,该用户或者其他用户无法对过去的对话的状况进行确认等。本发明的跨语言的语音对话系统在配对服务器接收到来自用户终端的指示的情况下,存储在存储介质中的对话信息被发送至用户终端,根据该语音对话系统,在用户与语音对话装置之间的一系列的对话进行了一定程度之后,该用户或者其他用户能够确认或者认知过去的对话的状况。
-
公开(公告)号:CN109496332A
公开(公告)日:2019-03-19
申请号:CN201780046486.4
申请日:2017-07-24
Applicant: 国立研究开发法人情报通信研究机构
Abstract: 在以往技术中,无法适当地辅助基于多个语言的语音对话。本发明能够通过语音对话装置,适当地辅助基于多个语言的语音对话,所述语音对话装置具备:受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语言识别符取得部,取得识别输入语音的语言的语言识别符;语音识别部,根据输入语音以及语言识别符生成作为语音识别结果的文本;对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;语音合成部,根据输出语句以及语言识别符生成语音波形;以及语音输出部,输出与语音合成部取得的语音波形相应的语音。
-
-
-