用异步解码器流式传输端到端语音识别的系统和方法

    公开(公告)号:CN114787914A

    公开(公告)日:2022-07-22

    申请号:CN202080083717.0

    申请日:2020-12-04

    Abstract: 语音识别系统利用帧同步解码器(FSD)模块和标签同步解码器(LSD)模块连续处理经编码声学特征的每个编码器状态。当识别出携带关于新转录输出的信息的编码器状态时,系统利用FSD模块扩展当前的FSD前缀列表,利用LSD模块评估FSD前缀,并根据联合的FSD评分和LSD评分修剪FSD前缀。通过使LSD模块处理编码器状态的包括由FSD模块识别的新转录输出的部分并产生由FSD模块确定的FSD前缀的LSD评分,来使FSD模块和LSD模块同步。

    用于对文本进行分类的方法

    公开(公告)号:CN104285224B

    公开(公告)日:2018-11-16

    申请号:CN201380024544.5

    申请日:2013-05-15

    CPC classification number: G06F17/30286

    Abstract: 通过根据文本确定文本特征并将文本特征变换为主题特征来对该文本进行分类。使用判别主题模型针对每一个主题特征来确定分数。该模型包括对主题特征进行操作的分类器,其中,通过变换根据文本特征来确定主题特征,并且变换被优化以最大化相对于不正确的类的分数的正确的类的分数。接着,选择针对文本具有最高分数的类标签。在按层次结构组织类的情况下,判别主题模型适用于根据前面的级别调节的每一个级别的类,并且跨级别组合分数以评估最高得分的类标签。

    用于增强输入的有噪信号的方法和系统

    公开(公告)号:CN105684079A

    公开(公告)日:2016-06-15

    申请号:CN201480058216.1

    申请日:2014-10-08

    Abstract: 一种从输入的有噪信号确定多个序列的隐变量的方法,多个序列的隐变量包括表示清晰语音信号的激励分量的至少一个序列的隐变量、表示清晰语音信号的滤波器分量的至少一个序列的隐变量和表示噪声信号的至少一个序列的隐变量。所述多个序列的隐变量包括被确定为非负基函数的非负线性组合的隐变量。所述确定使用清晰语音信号的模型,该模型包括将激励分量和滤波器分量的隐变量约束为在时间上统计地具有依存性的非负源-滤波器动力学系统(NSFDS)。所述方法使用表示激励分量和滤波器分量的相应隐变量的乘积生成输出信号。

    对文本进行处理以构造文本模型的方法

    公开(公告)号:CN104246763A

    公开(公告)日:2014-12-24

    申请号:CN201380017595.5

    申请日:2013-02-26

    CPC classification number: G06F17/30663 G06F17/2785

    Abstract: 文本被处理以构造文本的模型。文本具有共用词汇。文本被分成文本的集合和子集。共用词汇在两个或更多个集合中的用法不同,并且两个或更多个子集的主题不同。针对文本定义概率模型。该概率模型将文本中的各单词视为具有位置和单词值的标志,并且使用该概率模型中的随机变量的分布来表示在文本中的共用词汇的用法、主题、子主题和针对各标志的单词值,其中该随机变量是离散的。对应于与单词关联的词汇用法、单词值、主题和子主题,针对模型,估计参数。

    用于语音信号去混响的方法和系统

    公开(公告)号:CN117730369A

    公开(公告)日:2024-03-19

    申请号:CN202280051814.0

    申请日:2022-07-15

    Abstract: 公开了一种用于混响减少的系统和方法。第一深度神经网络(DNN)根据声学信号混合体来生成目标直接路径信号的第一估计,该声学信号混合体包括目标直接路径信号以及该目标直接路径信号的混响。估计对第一估计的房间脉冲响应(RIR)进行建模的滤波器。滤波器在被应用于目标直接路径信号的第一估计时生成根据距离函数最接近于声学信号混合体与目标直接路径信号的第一估计之间的残差。通过从所接收到的混合体中去除将滤波器应用于目标直接路径信号的第一估计的结果,来获得目标直接路径信号的具有减少的混响的混合体。第二DNN根据具有减少的混响的混合体来生成目标直接路径信号的第二估计。

    长语境端到端语音识别系统
    27.
    发明公开

    公开(公告)号:CN116324974A

    公开(公告)日:2023-06-23

    申请号:CN202180068325.1

    申请日:2021-04-28

    Abstract: 本发明总体上涉及语音处理,更特别地是,涉及利用长语境信息的端到端自动语音识别(ASR)。本发明的一些实施方式提供了适合识别长音频记录(诸如演讲和交谈语音)的端到端ASR的系统和方法。本公开包括利用语境信息的基于变换器的ASR系统,其中变换器同时接受多句话语,并预测最后一句话语的转录。这是以滑动窗口方式按照一句话语移位进行重复,来识别整个记录。此外,当长音频记录包括多个讲话者时,本发明的一些实施方式可以使用仅从由与最后一句话语相同的讲话者所说的先前话语获得的声学和/或文本特征。

    用于分级音频源分离的系统和方法

    公开(公告)号:CN116194989A

    公开(公告)日:2023-05-30

    申请号:CN202180065480.8

    申请日:2021-06-02

    Abstract: 音频处理系统包括存储神经网络的存储器,该神经网络被训练为处理音频混合以输出对音频混合中存在的音频源的集合的至少一个子集的估计。音频源经受对音频源的集合实施父子层级体系的分级约束,使得父音频源包括其一个或多个子音频源的混合。该子集包括父音频源及其子音频源中的至少一个子音频源。该系统还包括处理器以使用神经网络处理所接收的输入音频混合,以根据父子层级体系估计音频源的子集及其相互关系。该系统还包括输出接口,该输出接口被配置为呈现提取的音频源及其相互关系。

    用于检测对抗性攻击的系统和方法

    公开(公告)号:CN115443463A

    公开(公告)日:2022-12-06

    申请号:CN202180025925.X

    申请日:2021-02-05

    Abstract: 一种用于转录输入的语言学系统,其中,该语言学系统包括处理器,该处理器被配置成在改变神经网络的至少一些节点的权重的同时执行该神经网络多次,以生成输入的多个转录。此外,确定所述多个转录的成对距离的分布;基于该分布确定输入的合法性;以及当输入被确定为合法时,使用神经网络的节点的所存储的权重来转录该输入,以生成该输入的最终转录。

Patent Agency Ranking