-
公开(公告)号:CN116611428A
公开(公告)日:2023-08-18
申请号:CN202310562199.6
申请日:2023-05-18
Applicant: 昆明理工大学
IPC: G06F40/232 , G06F40/58 , G06F40/189 , G06F18/21 , G06F18/214 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/082
Abstract: 本发明提供基于编辑对齐算法的非自回归解码越南语文本正则化方法,越南语文本正则化面临着语言表达方式多样化及非标准词存在语义歧义问题,本发明构建越南语文本正则化标注语料,并对标注语料进行字符粒度对齐扩充;在第一阶段使用标注语料对指示器进行预训练,使用编辑对齐算法训练指示器中原始序列到目标序列的编辑对齐向量,同时提升模型编码端上下文语义信息建模能力;在第二阶段使用非自回归架构对预训练模型进行微调,通过修改位置向量提取非标准词的调整序列,缩小解码端搜索空间,避免基于序列生成模型本身局限性所产生的非正则化文本预测错误问题。实验证明本发明方法达到了97%的准确率,有效解决越南语文本正则化中的语义消歧问题。
-
公开(公告)号:CN118173081A
公开(公告)日:2024-06-11
申请号:CN202410281377.2
申请日:2024-03-12
Applicant: 昆明理工大学
Abstract: 本发明提供一种融合规则与语言模型的端到端文本正则化方法,文本正则化任务语音合成的前端分析任务对提高语音合成的可理解性具有至关重要的作用。当前基于加权有限状态转换器(WFST)的方法是文本正则化的主流方法,具有简单高效、解码快、不依赖标注语料等优点,但该方法难以解决非标准词的语义歧义。本发明提出一种融合语言模型的方法来解决规则系统的歧义性问题。通过语言模型与基于规则的WFST系统之间共享信息,在标记阶段优化规则系统的错误转换,通过构建新的正则化模块精准处理错误实体从而提高系统的整体性能。实验结果在开源数据集上达到了99.7%的准确率,有效解决规则系统的语言歧义与长尾问题。
-
公开(公告)号:CN119007704A
公开(公告)日:2024-11-22
申请号:CN202411118674.1
申请日:2024-08-15
Applicant: 昆明理工大学
IPC: G10L13/027 , G10L13/08 , G10L25/24 , G10L25/30
Abstract: 本发明提供面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统,主要针对个性化语音合成中域外说话人音色难以准确捕捉的问题,通过全局说话人表征模块和细粒度说话人表征模块的创新结合,有效提升了零资源条件下域外说话人语音合成的性能。全局模块使用快速傅里叶卷积和多头注意力机制提取并优化说话人音色特征,增强模型对未见说话人的泛化能力。细粒度模块则利用预训练的语音识别技术细致解耦音素级别特征,通过注意力机制精准捕捉音色细节。实验结果显示,本发明方法在AISHELL3数据集上的表现优于现有技术,尤其在说话人特征向量余弦相似度等客观评价指标上取得显著进步,验证了其在处理未见说话人适应问题上的有效性和实用性。
-
公开(公告)号:CN113901844A
公开(公告)日:2022-01-07
申请号:CN202111068294.8
申请日:2021-09-13
Applicant: 昆明理工大学
IPC: G06F40/58 , G06F40/45 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明涉及基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置,属于自然语言处理领域。针对汉语‑缅甸语双语资源稀缺、结构差异较大的特点,故提出了本发明的方法及装置,本发明方法主要包括汉语‑缅甸语文本数据预处理、模型不确定性注意力机制、模型不确定性约束的半监督汉缅神经机器翻译训练算法、汉语‑缅甸语互译模型等四个部分构成。本发明所提方法在Transformer网络中利用基于变分推断的蒙特卡洛Dropout构建模型不确定性注意力机制,能够有效获取到能够区分噪声数据的句子向量表征,提升汉语‑缅甸语神经机器翻译性能,对汉语‑东南亚语神经机器翻译具有理论和实际应用价值。
-
公开(公告)号:CN119889281A
公开(公告)日:2025-04-25
申请号:CN202510064803.1
申请日:2025-01-15
Applicant: 昆明理工大学
IPC: G10L13/08 , G10L13/027 , G10L13/047 , G10L25/30 , G06N3/0442
Abstract: 本发明涉及音素知识增强的老‑英混合语言语音合成方法和装置,属于自然语言处理技术领域。本发明包括步骤:构建音素细粒度发音知识词典;构建音素知识增强的老‑英混合语言语音合成模型,音素知识增强的老‑英混合语言语音合成模型包括:在编码阶段融入了细粒度发音特征,直接对发音进行建模;在模型训练时,首先通过音素细粒度发音知识词典将字符转化为id标识,再通过嵌入层生成向量表示,从而得到传统音素嵌入;然后,将音素的发音特征表示为一维矩阵,通过设置矩阵中的值为1或‑1来区分音素发音的差异,从而对细粒度发音特征建模;老‑英混合语言语音合成。本发明能够更加准确地进行发音合成。
-
公开(公告)号:CN118471193A
公开(公告)日:2024-08-09
申请号:CN202410674280.8
申请日:2024-05-28
Applicant: 昆明理工大学
Abstract: 本发明涉及基于神经编解码语言模型的老挝语韵律建模方法,属于自然语言处理技术领域。本发明首先结合老挝语的语言特点,对老挝语进行字符转音素,其次使用速度控制曲线和音调控制曲线,实现了在速度和音调多种语言特点上的韵律建模。最后通过自回归架构和非自回归架构结合的方式对模型进行训练,使合成的语音在质量和推理速度之间取得一个平衡。本发明提出的基于神经编解码语言模型的老挝语韵律建模方法,赋予合成语音丰富的韵律和节奏变化。
-
公开(公告)号:CN116597437B
公开(公告)日:2023-10-03
申请号:CN202310880842.X
申请日:2023-07-18
Applicant: 昆明理工大学
Abstract: 本发明涉及融合双层注意力网络的端到端老挝车牌照识别方法及装置,属于自然语言处理领域。本发明方法包括老挝车牌照图像数据构建及预处理、融合双层注意力网络的端到端老挝车牌照识别模型构建、融合双层注意力网络的端到端老挝车牌照模型训练、融合双层注意力网络的端到端老挝车牌照识别模型四部分构成。根据这四个部分功能模块化制成融合双层注意力网络的端到端老挝车牌照识别装置,对输入的老挝车牌照图像进行信息识别,本发明提高了老挝车牌照图像识别的正确率,有效地解决了老挝车牌照上行省份字符排列紧密、难以分割和下行辅音字符相似度高、难以识别的问题。
-
公开(公告)号:CN115910023A
公开(公告)日:2023-04-04
申请号:CN202211408064.6
申请日:2022-11-10
Applicant: 昆明理工大学
Abstract: 本发明涉及基于细粒度韵律建模的低资源老挝语语音合成方法,属于自然语言处理领域。针对老挝语语音资源极度稀缺,传统基于Tacotron2的神经网络语音合成方法在极低资源语料条件下模型难于训练充分,致使出现模型注意力机制崩坏,合成音频缺乏流畅度和自然度的问题,本发明提出了一种细粒度韵律建模的低资源老挝语语音合成方法,主要包括对老挝语语音合成数据预处理、基于细粒度韵律建模的老挝语语音合成两个部分构成。本发明所提的方法是提取老挝语音频中的音调特征及老挝语字符粒度预训练语言模型,通过交叉注意力机制融合不同层次的粒度特征,帮助模型更好的学习到文本‑梅尔谱图的注意力机制对齐关系,提高模型的韵律表现。
-
公开(公告)号:CN119007705A
公开(公告)日:2024-11-22
申请号:CN202411123081.4
申请日:2024-08-15
Applicant: 昆明理工大学
IPC: G10L13/027 , G10L13/033 , G10L13/10 , G10L25/30
Abstract: 本发明涉及一种基于神经编解码器的老挝语细粒度韵律建模方法,旨在通过深入分析韵律特征与文本属性之间的关联,并通过捕捉这些细微的韵律变化从而合成更加自然和准确的老挝语语音,属于语音处理技术领域。本发明在VALL‑E模型基础上,设计了词级韵律编码器模块、风格自适应器模块和神经编解码器模块。其中,所述词级韵律编码器模块,主要是对语音信号的低频部分进行定量化,并将韵律特征封装于潜在韵律向量中;风格自适应器模块能够根据从参考语音音频中提取的韵律信息,调整文本输入的增益和偏置;神经编解码器模块,将输入音素以及韵律内容提示生成离散的码元。本发明能够使合成语音更自然、富有表现力,更好地传达语言的意图和情绪。
-
公开(公告)号:CN116597437A
公开(公告)日:2023-08-15
申请号:CN202310880842.X
申请日:2023-07-18
Applicant: 昆明理工大学
Abstract: 本发明涉及融合双层注意力网络的端到端老挝车牌照识别方法及装置,属于自然语言处理领域。本发明方法包括老挝车牌照图像数据构建及预处理、融合双层注意力网络的端到端老挝车牌照识别模型构建、融合双层注意力网络的端到端老挝车牌照模型训练、融合双层注意力网络的端到端老挝车牌照识别模型四部分构成。根据这四个部分功能模块化制成融合双层注意力网络的端到端老挝车牌照识别装置,对输入的老挝车牌照图像进行信息识别,本发明提高了老挝车牌照图像识别的正确率,有效地解决了老挝车牌照上行省份字符排列紧密、难以分割和下行辅音字符相似度高、难以识别的问题。
-
-
-
-
-
-
-
-
-