基于Transformer-CRF的藏文分词方法

    公开(公告)号:CN114330328A

    公开(公告)日:2022-04-12

    申请号:CN202111520289.6

    申请日:2021-12-13

    Abstract: 本发明公开了一种基于Transformer‑CRF的藏文分词方法,该方法包括:输入数据集、数据预处理、音节扩展、构建基于Transformer‑CRF的藏文分词模型、训练并保存模型及其参数以及输入待分词语料,输出分词结果。本发明以当前音节为中心向左向右扩展两个单元,使用unigram和bigram相结合的方法,可以提取到更多的特征向量。同时,本发明克服了传统分词方法中存在的运算速度、准确率低等缺点。另外,基于Transformer‑CRF的藏文分词模型采用并行计算,大大增加了计算效率,而且模型中的自注意力机制的特征抽取能力比LSTM的特征抽取能力要好。

    一种基于马尔科夫理论的自然场景藏文图像数据增强方法

    公开(公告)号:CN119206744A

    公开(公告)日:2024-12-27

    申请号:CN202411719200.2

    申请日:2024-11-28

    Abstract: 本发明提供了一种基于马尔科夫理论的自然场景藏文图像数据增强方法,包括:识别输入信息语义;定义马尔科夫过程,该过程将训练数据逐步加入噪声扰动,形成一个马尔科夫链;定义逆马尔科夫过程,该过程使用一个神经网络模型,根据当前的扰动图像和时间步长,预测并去除扰动,逐步恢复原始图像;训练神经网络模型,使其能够最大化逆马尔科夫过程的条件概率;生成图像,将马尔科夫过程处理后得到的结果作为初始状态矩阵,然后沿着马尔科夫链反向遍历,使用神经网络模型逐步还原,最终得到生成的图像。本发明可以避免生成模型中常见的对抗训练、模式崩溃、梯度消失等问题,同时可以实现高效的并行化和可扩展性,生成的图像具有高分辨率和多样性。

    一种基于马尔科夫理论的自然场景藏文图像数据增强方法

    公开(公告)号:CN119206744B

    公开(公告)日:2025-02-18

    申请号:CN202411719200.2

    申请日:2024-11-28

    Abstract: 本发明提供了一种基于马尔科夫理论的自然场景藏文图像数据增强方法,包括:识别输入信息语义;定义马尔科夫过程,该过程将训练数据逐步加入噪声扰动,形成一个马尔科夫链;定义逆马尔科夫过程,该过程使用一个神经网络模型,根据当前的扰动图像和时间步长,预测并去除扰动,逐步恢复原始图像;训练神经网络模型,使其能够最大化逆马尔科夫过程的条件概率;生成图像,将马尔科夫过程处理后得到的结果作为初始状态矩阵,然后沿着马尔科夫链反向遍历,使用神经网络模型逐步还原,最终得到生成的图像。本发明可以避免生成模型中常见的对抗训练、模式崩溃、梯度消失等问题,同时可以实现高效的并行化和可扩展性,生成的图像具有高分辨率和多样性。

    一种基于快速傅里叶变换的藏语语音数据生成方法

    公开(公告)号:CN119091857A

    公开(公告)日:2024-12-06

    申请号:CN202411590707.2

    申请日:2024-11-08

    Abstract: 本发明公开了一种基于快速傅里叶变换的藏语语音数据生成方法,该方法通过语音数据采集并在时域上应用汉明窗口函数以减少频谱泄漏,使用快速傅里叶变换算法将采集的音频信号从时域转换为频域,以实现高效的频率分析,设计巴特沃斯带通滤波器对频域中的语音数据进行滤波,以提取特定频率成分,利用余弦距离计算滤波前后信号的相似性,用以评估滤波效果,采用梯度下降算法搜索并优化滤波器参数,通过迭代优化,调整各参数以达到最佳滤波效果,使用快速傅里叶逆变换将最终的频域信号转换成时域信号,生成高质量的音频文件。本发明方案通过控制时频转换和滤波过程中的参数,有效提高了藏语语音数据的生成质量和准确性,大幅减少数据采集的成本。

    基于Transformer-CRF的藏文分词方法

    公开(公告)号:CN114330328B

    公开(公告)日:2023-10-10

    申请号:CN202111520289.6

    申请日:2021-12-13

    Abstract: 本发明公开了一种基于Transformer‑CRF的藏文分词方法,该方法包括:输入数据集、数据预处理、音节扩展、构建基于Transformer‑CRF的藏文分词模型、训练并保存模型及其参数以及输入待分词语料,输出分词结果。本发明以当前音节为中心向左向右扩展两个单元,使用unigram和bigram相结合的方法,可以提取到更多的特征向量。同时,本发明克服了传统分词方法中存在的运算速度、准确率低等缺点。另外,基于Transformer‑CRF的藏文分词模型采用并行计算,大大增加了计算效率,而且模型中的自注意力机制的特征抽取能力比LSTM的特征抽取能力要好。

Patent Agency Ranking