-
公开(公告)号:CN103077724A
公开(公告)日:2013-05-01
申请号:CN201210585566.6
申请日:2012-12-28
Applicant: 中国科学院声学研究所 , 上海中科高等研究院 , 北京中科信利技术有限公司
IPC: G10L19/018
Abstract: 本发明涉及一种在音频中嵌入和解出水印的方法和装置。本发明充分利用了不同扩频码之间的不相关性,采用了随机使用扩频码来嵌入水印帧,降低了各个混音音频中的各个水印分量之间的相互干扰,大大提高了水印解码的正确率。同时,考虑到使用所有扩频码进行相关检测会让计算量猛增,提出了一种新的帧结构,让计算量大大降低。另外,提出了一种多同步技术,这让各个水印分量都能在解码同时得到同步,解决了以往的同步技术只能让一个混音分量得到同步的问题。从而实现了能够抵御混音攻击的数字音频水印算法。
-
公开(公告)号:CN1963919B
公开(公告)日:2010-05-05
申请号:CN200510117698.6
申请日:2005-11-08
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L19/00
Abstract: 本发明涉及一种对单音进行音符切分的方法,更具体地说,本发明涉及一种基于能量的音符切分方法,包括:1)对语音信号进行分帧处理;2)计算出每一帧的谐波和能量。3)计算出每一帧的谐波和能量突出度δ;4)通过前后比较找出整个语音信号中突出度δ的极值点5)判断突出度δ极值点是否大于1,若判断为是,则把该极值点所在帧作为音符分割点。与现有技术相比,本发明的优点是:对于能量变化的各种情况有统一稳定的计算方式,音符切分的判决简单可靠。
-
公开(公告)号:CN101470893A
公开(公告)日:2009-07-01
申请号:CN200810172527.7
申请日:2008-10-29
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种基于位图缓存的矢量图形显示的加速方法,该方法在矢量动画的播放过程中,将连续显示的复杂矢量对象的渲染结果缓存,当显示对象再次出现时,取出对应的位图缓存对象,经过变换操作,直接显示在指定位置。该加速方法包括预缓存策略,缓存选择策略,缓存使用策略,缓存压缩保存策略和缓存替换策略。其优点在于:省去大量计算,节省渲染矢量图像的时间,加快显示速度;根据嵌入实式设备的内存大小和处理速度的不同,调整缓存容量大小和复杂图形的边缘曲线门限达到最佳效果;操作简单,只保存矢量对象的ID号,长宽,位图数据,优先级和最近使用帧号,用一个简单的链表即可实现;渲染步骤及播放流程透明,不影响矢量动画的播放过程。
-
公开(公告)号:CN101447186A
公开(公告)日:2009-06-03
申请号:CN200710178220.3
申请日:2007-11-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种单音旋律曲线的匹配方法,包括:1)将待匹配的两段单音旋律分帧,分别提取每一帧的基频,得到两个基频序列;2)选择划分点k,l,将所述基频序列A1,…,n和B1,…,m分别划分为前、后两个子序列,然后计算折线匹配代价;选择不同的划分点组合,找出使得该折线匹配代价最小的最优划分点组合k、l;3)回到步骤2),进一步找出前子序列和后子序列各自的最优划分点组合,这样不断循环,直到划分得出的子序列长度小于预先设定的门限值。相对于已有的非线性旋律匹配方法,本发明中的方法采用自上而下的递归方式解决旋律匹配问题,能够更好地强调整体旋律线的匹配,具有更好的匹配效果,也更符合人对音乐的感知。同时,本发明的方法具有较低的算法复杂度。
-
公开(公告)号:CN100403828C
公开(公告)日:2008-07-16
申请号:CN200380101122.X
申请日:2003-10-17
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
CPC classification number: H04M1/271 , G10L15/26 , G10L2015/027
Abstract: 本发明公开一种具有语音操作系统的便携式数字移动通讯设备及语音操作控制方法,在进行语音识别时是利用特征码本对语音的特征矢量序列进行量化编码,而在解码运算中对有效语音特征码字矢量序列的各个码字,是直接从概率表中查到其在搜索路径上的观察概率;采用本发明,可以在手机中实现全音节的语音识别,无需训练,并可实现汉字语音输入和全音节的语音提示,系统具有语义分析、对话管理和语言生成模块,可以处理复杂的对话过程并产生灵活的提示信息反馈给用户,本发明还可由用户进行语音命令和提示内容的定制。
-
公开(公告)号:CN1770256A
公开(公告)日:2006-05-10
申请号:CN200410088428.2
申请日:2004-11-02
Applicant: 北京中科信利技术有限公司 , 中国科学院声学研究所
Abstract: 本发明涉及一种数字混音方法,更具体的说,涉及一种基于变换域的数字音频混合方法。包括如下步骤:1)输入多个已数字化的音频流,进行分帧处理,得到各帧的时域音频序列;2)对多个音频流以帧为单位进行覆盖性频域插值,得到各帧频域混音后的时域音频序列;该覆盖性频域插值是先将原始音频序列由时域变换到频域,然后进行覆盖性频域插值运算,再由频域变回时域,最后得到混音音频序列;3)将混音信号的各帧数据组合成一个完整的输出音频流。与现有技术相比,本发明最大优点是有效地解决了经典混音中的溢出问题,在对数据的动态范围有严格限制的情况下,能够提供很好的“音效级”混合效果。本发明特别适用于嵌入式终端上的实时双路音频流混合。
-
公开(公告)号:CN1248191C
公开(公告)日:2006-03-29
申请号:CN03137014.4
申请日:2003-06-19
Applicant: 北京中科信利技术有限公司 , 中国科学院声学研究所
IPC: G10L13/02
Abstract: 本发明公开了一种基于数字信号处理的语音变声方法,包括步骤(1)选取需要变声的原始语音信号;(2)得到原始语音信号的基音周期长度;(3)根据基音周期长度定位整个原始语音信号的每一个基音周期的位置;(4)在原始语音信号中的基音周期之间删除/插入基音周期,得到缩短/伸长的语音信号;(5)将缩短/伸长的语音信号线性伸长/压缩至与原始语音信号一致的长度,得到变声后的语音信号。本发明是基于数字信号处理的语音变声方法,该方法简单实用,运算量很小,适于在DSP芯片上实时实现,变声的语音的自然度很高。而且变声后的语音的长度与原始语音长度一致,有利于实时传送变声后的语音信号。
-
公开(公告)号:CN113420123B
公开(公告)日:2025-01-14
申请号:CN202110705729.9
申请日:2021-06-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/3329 , G06F16/334 , G06F18/214 , G06N3/02
Abstract: 本申请提供了一种语言模型的训练方法、NLP任务处理方法及装置,包括:获取训练样本集;训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签;复制语言模型得到教师语言模型,将语言模型作为学生语言模型;将第二任务标签输入至教师语言模型中,生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签;将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中,生成第一预测文本、第一预测结果、第二预测文本和第二预测结果,对学生语言模型进行训练。根据本申请实施例,能够解决相关技术中存储资源占用大的问题。
-
公开(公告)号:CN111382303B
公开(公告)日:2023-11-28
申请号:CN201811619718.3
申请日:2018-12-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/683 , G06F16/61
Abstract: 本发明涉及一种基于指纹权重的音频样例检索方法,该方法具体包括:获取待检音频的二进制音频指纹序列值,在预先建立的哈希表中进行查找;查找出对应的模板音频的二进制音频指纹序列值;计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误。
-
公开(公告)号:CN113420123A
公开(公告)日:2021-09-21
申请号:CN202110705729.9
申请日:2021-06-24
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/332 , G06K9/62 , G06N3/02
Abstract: 本申请提供了一种语言模型的训练方法、NLP任务处理方法及装置,包括:获取训练样本集;训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签;复制语言模型得到教师语言模型,将语言模型作为学生语言模型;将第二任务标签输入至教师语言模型中,生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签;将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中,生成第一预测文本、第一预测结果、第二预测文本和第二预测结果,对学生语言模型进行训练。根据本申请实施例,能够解决相关技术中存储资源占用大的问题。
-
-
-
-
-
-
-
-
-