-
公开(公告)号:CN102779184A
公开(公告)日:2012-11-14
申请号:CN201210226094.5
申请日:2012-06-29
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了一种近似重复视频片段自动定位方法,该方法包括以下步骤:抽取查询视频片段和目标视频的关键帧序列;提取关键帧序列的视频二值时间灰度序特征;提取关键帧序列的视频时空统一灰度序特征;对目标视频进行三层自动定位过滤,得到目标视频中与查询视频片段近似重复的视频片段。本发明方法较基于空间灰度序的定位方法平均能够节省约62%的响应时间,较基于时间灰度序的定位方法平均能够节省约89%的响应时间,并能够使定位查询在召回率平均值为1.0时,精度平均值达到0.965,高于基于空间灰度序方法的0.934,以及基于时间灰度序方法的0.775。由上可知,本发明方法大幅提高了定位过滤的执行效率,能够在召回率较高的情况下,显著提高定位精度。
-
公开(公告)号:CN119446125B
公开(公告)日:2025-04-29
申请号:CN202510027286.0
申请日:2025-01-08
Applicant: 中国科学院自动化研究所
IPC: G10L15/02 , G10L15/06 , G10L15/183 , G10L15/16 , G10L15/26
Abstract: 本发明提供一种基于多配置分块上下文转换器模型的语音识别方法及装置,属于人工智能技术领域,该方法包括:获取待识别语音的特征序列;将特征序列输入至经过训练的语音识别模型,利用语音识别模型对待识别语音进行语音识别,得到语音识别模型输出的识别结果;语音识别模型为多配置分块上下文转换器MCC‑Transformer模型,MCC‑Transformer模型是在转换器模型的基础上,在编码器中引入一个语音MCC‑Transformer块构建而成,语音MCC‑Transformer块由多个MCC‑Transformer块堆叠而成。本发明在编码器中引入一个由多个MCC‑Transformer块堆叠而成的语音MCC‑Transformer块,提高了语音识别的准确率。
-
公开(公告)号:CN116312502B
公开(公告)日:2025-02-11
申请号:CN202211735842.2
申请日:2022-12-30
Applicant: 中国科学院自动化研究所
IPC: G10L15/183 , G06F18/214 , G06F18/24 , G06F18/25 , G06N3/0464 , G10L15/14 , G10L15/16 , G10L15/06 , G10L19/24
Abstract: 本发明提供一种基于顺序采样分块机制的端到端流式语音识别方法及装置,包括:针对初始语音识别模型中的每个特征提取网络,将前一个特征提取网络中SSC‑MHSA模块输出的多个语音样本的第二声学特征信息,输入特征提取网络中C‑MHSA模块,得到多个语音样本的第一声学特征信息;将多个语音样本的第一声学特征信息,输入特征提取网络的SSC‑MHSA模块,得到多个语音样本的第二声学特征信息;将初始语音识别模型中最后一个特征提取网络输出的多个语音样本的第二声学特征信息,输入初始语音识别模型中的解码器网络,得到多个语音样本的预测信息;基于多个语音样本的预测信息和标签信息,更新初始语音识别模型的模型参数,以得到性能较好的流式语音识别模型。
-
公开(公告)号:CN112966690A
公开(公告)日:2021-06-15
申请号:CN202110237052.0
申请日:2021-03-03
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于多媒体图像视频场景文字识别领域,具体涉及了一种基于无锚框和提议框的场景文字检测方法,旨在解决现有技术难以覆盖变换多样的文字且参数复杂,从而检测效率低和泛化能力差的问题。本发明包括:构建模型并提取场景文字待检测区域的高层卷积特征和低层卷积特征;通过升采样和串联进行高层卷积特征和低层卷积特征的融合,获得卷积融合特征;使用无损失文字注意力机制将高层卷积特征携带的高层语义信息嵌入,获得LTAM卷积融合特征;通过三个分支进行检测输出,并去除冗余矩形框,获得最终的检测结果。本发明无需预设锚框和提议框,简单灵活、检测性能优,检测速度显著超过多数方法。
-
公开(公告)号:CN104915386A
公开(公告)日:2015-09-16
申请号:CN201510270028.1
申请日:2015-05-25
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/30705 , G06F17/2785
Abstract: 本发明公开了一种基于深度语义特征学习的短文本聚类方法,包括:通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示,并对得到的低维实值向量进行二值化,做为卷积神经网络结构的监督信息进行误差反向传播训练模型;采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征;得到深度语义特征表示后,采用传统的K均值算法对文本进行聚类。本发明的方法不需要额外的自然语言处理等专业知识,设计简单且可学习深度的语义特征,并且,学习到的语义特征具有无偏性,可更有效地达到较好的聚类性能。
-
公开(公告)号:CN103297851A
公开(公告)日:2013-09-11
申请号:CN201310182156.1
申请日:2013-05-16
Applicant: 中国科学院自动化研究所
IPC: H04N21/45 , H04N21/845
Abstract: 本发明公开了一种长视频中目标内容的快速统计与自动审核方法,该方法包括以下步骤:抽取长视频和目标视频的关键帧序列;提取关键帧序列的局部二值模式直方图特征和空间灰度序特征;在长视频序列中快速查找目标视频,进行目标视频的粗定位;采用时空约束极大连通区域方法,在长视频序列中精确定位目标视频;判断目标视频在长视频中是否定位完成;根据定位结果,进行长视频内容统计和可疑目标的自动审核。本发明能够对大规模长视频进行自动处理,能够进行长视频内容的快速统计和可疑目标内容的自动审核。
-
公开(公告)号:CN116129885B
公开(公告)日:2025-03-21
申请号:CN202211679705.1
申请日:2022-12-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种说话人确认模型训练方法、装置及设备,该方法包括:获取一个训练批次中全部语音样本对应的语音特征、以及全部语音样本对应的标签信息;将语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到语音特征对应的目标全局特征和目标局部特征;基于目标全局特征和所述目标局部特征,确定全部语音样本对应的预测信息;根据标签信息和预测信息,更新初始说话人确认模型的模型参数,以得到说话人确认模型。本发明提供的说话人确认模型训练方法、装置及设备用于使TDNN网络和Transformer网络并行学习,提升说话人确认模型的性能。
-
公开(公告)号:CN119556939A
公开(公告)日:2025-03-04
申请号:CN202510114240.2
申请日:2025-01-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于上复用混合多样性专家大模型的代码生成方法及装置,属于人工智能领域,该方法包括:获取代码描述信息;将代码描述信息输入至经过训练的代码大模型,获取代码大模型输出的代码;代码大模型为基于上复用混合多样性专家的大模型;代码大模型是在稠密模型的基础上增加一个共享专家和多个普通专家构建而成;共享专家复用稠密模型的FFN模块的参数;共享专家用于提取词元的通用知识;普通专家采用随机初始化的方式进行初始化参数;普通专家用于提取词元的专用知识。本发明在稠密模型的基础上增加一个共享专家和多个普通专家构建代码大模型,采用多样性上复用机制,提高了生成的代码的准确率。
-
公开(公告)号:CN119446125A
公开(公告)日:2025-02-14
申请号:CN202510027286.0
申请日:2025-01-08
Applicant: 中国科学院自动化研究所
IPC: G10L15/02 , G10L15/06 , G10L15/183 , G10L15/16 , G10L15/26
Abstract: 本发明提供一种基于多配置分块上下文转换器模型的语音识别方法及装置,属于人工智能技术领域,该方法包括:获取待识别语音的特征序列;将特征序列输入至经过训练的语音识别模型,利用语音识别模型对待识别语音进行语音识别,得到语音识别模型输出的识别结果;语音识别模型为多配置分块上下文转换器MCC‑Transformer模型,MCC‑Transformer模型是在转换器模型的基础上,在编码器中引入一个语音MCC‑Transformer块构建而成,语音MCC‑Transformer块由多个MCC‑Transformer块堆叠而成。本发明在编码器中引入一个由多个MCC‑Transformer块堆叠而成的语音MCC‑Transformer块,提高了语音识别的准确率。
-
公开(公告)号:CN112966690B
公开(公告)日:2023-01-13
申请号:CN202110237052.0
申请日:2021-03-03
Applicant: 中国科学院自动化研究所(CN)
Abstract: 本发明属于多媒体图像视频场景文字识别领域,具体涉及了一种基于无锚框和提议框的场景文字检测方法,旨在解决现有技术难以覆盖变换多样的文字且参数复杂,从而检测效率低和泛化能力差的问题。本发明包括:构建模型并提取场景文字待检测区域的高层卷积特征和低层卷积特征;通过升采样和串联进行高层卷积特征和低层卷积特征的融合,获得卷积融合特征;使用无损失文字注意力机制将高层卷积特征携带的高层语义信息嵌入,获得LTAM卷积融合特征;通过三个分支进行检测输出,并去除冗余矩形框,获得最终的检测结果。本发明无需预设锚框和提议框,简单灵活、检测性能优,检测速度显著超过多数方法。
-
-
-
-
-
-
-
-
-