基于Xlnet模型的类案检索方法、系统及设备

    公开(公告)号:CN114490946A

    公开(公告)日:2022-05-13

    申请号:CN202210142076.2

    申请日:2022-02-16

    Applicant: 中南大学

    Abstract: 本公开实施例中提供了一种基于Xlnet模型的类案检索方法、系统及设备,属于数据处理技术领域,具体包括:将目标案件文本与案件检索数据库内的文本进行预处理;根据预设算法计算预处理后的目标案件文本与案件检索数据库内文本的案件文本相似度特征,以及,利用Xlnet模型提取语义特征;将案件文本相似度特征与语义特征融合后输入全连接神经网络,输出检索结果。通过本公开的方案,对案件文本数据预处理时进行数据清洗,使原始数据包含的信息更加规范精确,然后计算案件文本相似度特征,以及,利用Xlnet模型将文本转为词向量,得到语义特征并进行融合,输入全连接神经网络得到检索结果,提高了类案检索的效率、精准度和适应性。

    一种基于对比学习的电子病历数据预训练方法

    公开(公告)号:CN115019923B

    公开(公告)日:2023-04-28

    申请号:CN202210814501.8

    申请日:2022-07-11

    Applicant: 中南大学

    Abstract: 本发明提供了一种基于对比学习的电子病历数据预训练方法,包括以下步骤:将每个电子病历数据采用不同类别、不同属性的方式建立病历样本数据库;采用数据分级和数据归一化对数据库内的数据进行预处理;基于属性距离采样每条数据的正例样本数据和负例样本数据;对所有数据以及其对应的正例样本数据和负例样本数据进行一一训练,得到每条数据的特征向量和预测值;再根据所有数据的特征向量及其预测值计算损失函数,并根据损失函数对神经网络模型的权重矩阵进行更新;判断神经网络模型的训练是否达到停止条件,若达到,则训练结束,并输出每条数据的特征向量和预测值;若未达到,则对数据进行新一轮的训练,直到达到神经网络模型训练的停止条件。

    一种中文拼写错误检查方法

    公开(公告)号:CN115659958A

    公开(公告)日:2023-01-31

    申请号:CN202211679594.4

    申请日:2022-12-27

    Applicant: 中南大学

    Abstract: 本发明提供了一种中文拼写错误检查方法,包括:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。本发明提供的中文拼写错误检查方法通过增加降噪模块,得到原文本的正确语义特征表示,使原文本和噪声文本的字符更加准确,消除错误字符对原文本语境的影响。

    一种基于对比学习的电子病历数据预训练方法

    公开(公告)号:CN115019923A

    公开(公告)日:2022-09-06

    申请号:CN202210814501.8

    申请日:2022-07-11

    Applicant: 中南大学

    Abstract: 本发明提供了一种基于对比学习的电子病历数据预训练方法,包括以下步骤:将每个电子病历数据采用不同类别、不同属性的方式建立病历样本数据库;采用数据分级和数据归一化对数据库内的数据进行预处理;基于属性距离采样每条数据的正例样本数据和负例样本数据;对所有数据以及其对应的正例样本数据和负例样本数据进行一一训练,得到每条数据的特征向量和预测值;再根据所有数据的特征向量及其预测值计算损失函数,并根据损失函数对神经网络模型的权重矩阵进行更新;判断神经网络模型的训练是否达到停止条件,若达到,则训练结束,并输出每条数据的特征向量和预测值;若未达到,则对数据进行新一轮的训练,直到达到神经网络模型训练的停止条件。

    一种中文拼写错误检查方法

    公开(公告)号:CN115659958B

    公开(公告)日:2023-03-21

    申请号:CN202211679594.4

    申请日:2022-12-27

    Applicant: 中南大学

    Abstract: 本发明提供了一种中文拼写错误检查方法,包括:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。本发明提供的中文拼写错误检查方法通过增加降噪模块,得到原文本的正确语义特征表示,使原文本和噪声文本的字符更加准确,消除错误字符对原文本语境的影响。

Patent Agency Ranking