-
公开(公告)号:CN116468054B
公开(公告)日:2023-11-07
申请号:CN202310466088.5
申请日:2023-04-26
Applicant: 中央民族大学
Abstract: 本发明公开了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统,应用于数据处理技术领域:提取视频文件源,对带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;对长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;视频文件通过OCR技术识别字幕,生成中文文本初文件,对中文文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;利用音频数据和文本数据构建藏汉音译数据集。本发明对传统的录制音频采集数据方式加以改进,结合藏语自然口语语音的基本特点,选用有自然口语表达效果的电视访谈节目作为采集来源,整理制作了用于藏汉语音翻译研究的平行语料,为端到端藏汉语音翻译研究提供了一定的数据支撑。
-
公开(公告)号:CN107808661B
公开(公告)日:2020-12-11
申请号:CN201710995917.3
申请日:2017-10-23
Applicant: 中央民族大学
Abstract: 本发明公开了一种基于协作式批量主动学习的藏语语音语料标注方法及系统,其中系统包括:样本选择模块,手工标注模块,标注决策模块,标注者评估模块,训练集生成模块。本发明通过临近最优批量样本选择方法解决样本评价函数的构造及其submodular函数性质的证明,通过标注委员会协作标注方法,解决标注决策函数的构造、标注者评估模型和标注者辅助学习模型的建模。此外,本发明的系统能够实现样本的优化选择、用户的标注评估、标注信息和藏语语音知识的共享、标注者辅助学习等功能,拟提高藏语语音数据的标注质量,加快语音语料建设。
-
公开(公告)号:CN109036387A
公开(公告)日:2018-12-18
申请号:CN201810779665.5
申请日:2018-07-16
Applicant: 中央民族大学
IPC: G10L15/06
CPC classification number: G10L15/063
Abstract: 本申请公开了一种视频语音识别方法及系统。该方法包括:对所述音频信息进行特征提取,得到所述音频信息的第一特征向量;根据所述第一特征向量对语音识别模型进行模型训练,得到训练后的所述第一语音识别模型;根据所述第一语音识别模型对所述音频信息进行语音识别,得到第一语音识别结果;采用对所述音频信息进行特征提取,得到所述音频信息的第一特征向量的方式,通过对语音识别模型进行模型训练,得到训练后的所述第一语音识别模型,达到了根据所述第一语音识别模型对所述音频信息进行语音识别,得到第一语音识别结果的目的,进而解决了相关技术中对视频中的语音不能及时识别和处理的问题。
-
公开(公告)号:CN116468054A
公开(公告)日:2023-07-21
申请号:CN202310466088.5
申请日:2023-04-26
Applicant: 中央民族大学
Abstract: 本发明公开了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统,应用于数据处理技术领域:提取视频文件源,对带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;对长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;视频文件通过OCR技术识别字幕,生成中文文本初文件,对中文文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;利用音频数据和文本数据构建藏汉音译数据集。本发明对传统的录制音频采集数据方式加以改进,结合藏语自然口语语音的基本特点,选用有自然口语表达效果的电视访谈节目作为采集来源,整理制作了用于藏汉语音翻译研究的平行语料,为端到端藏汉语音翻译研究提供了一定的数据支撑。
-
公开(公告)号:CN116778955A
公开(公告)日:2023-09-19
申请号:CN202310664414.3
申请日:2023-06-06
Applicant: 中央民族大学
IPC: G10L25/30 , G06F40/58 , G06F16/33 , G06F16/332 , G06N3/0464 , G06N3/048 , G06N3/0455 , G06N3/0442 , G06N3/08 , G10L25/03 , G10L25/48
Abstract: 本发明公开了一种基于跨语言预训练模型的藏汉语音到语音翻译方法及系统,涉及语音翻译技术领域,通过构建藏汉平行语音语料库,并进行特征提取,得到源语言梅尔谱图和目标语言梅尔谱图,将源语言梅尔谱图进行编码处理,得到输出结果;构建声谱预测模型,引入多头注意力机制计算注意力权重,对输出结果分配注意力权重,得到注意力上下文向量,同时对目标语言梅尔谱图进行重构,并将注意力上下文向量和重构结果进行拼接,得到预测的梅尔谱图;将预测的梅尔谱图输入到声码器中,得到目标语言语音,在此预测过程中不需要任何中间文本的支持,可以有效降低级联式语音到语音翻译系统中的三大弊端,具有重要理论研究意义。
-
公开(公告)号:CN115171128A
公开(公告)日:2022-10-11
申请号:CN202210986564.1
申请日:2022-08-17
Applicant: 中央民族大学
Abstract: 本发明公开了一种象形文字识别方法、装置、设备和介质。该方法包括:将文字图片输入至识别模型中;通过所述识别模型的串接的至少两个特征提取单元对文字图片进行特征提取,得到目标特征;其中,所述特征提取单元包括混合感知映射单元和/或空间感知聚合单元;混合感知映射单元用于获取全局有效特征和全局关键位置特征;空间感知聚合单元用于获取局部关键细节特征;不同特征提取单元用于提取不同尺寸的特征;通过所述识别模型的分类层,对所述目标特征进行分类,确定所述文字图片对应的文字识别结果。通过本发明实施例能够在对文字图片进行特征提取后,提高特征提取结果的丰富性,从而提高识别模型对文字图片进行识别的准确率。
-
-
-
-
-