一种基于词义加权TF-IDF疾病表征词提取方法

    公开(公告)号:CN113807090B

    公开(公告)日:2024-04-30

    申请号:CN202110915839.8

    申请日:2021-08-10

    Applicant: 三峡大学

    Abstract: 本发明公开了一种基于词义加权TF‑IDF疾病表征词提取方法,包括以下步骤:(1)数据预处理;(2)结合电子病历特点,构建本地任务词库;(3)计算文本词义特征加权权重值;(4)统计词频,计算逆文档频率,形成TF‑IDF计算模型,并将词义权重引入模型;(5)模型运行,获取疾病表征词。该基于词义加权TF‑IDF疾病表征词提取方法与传统的TF‑IDF模型相比,本发明提出的技术方案引入了词义加权以提升关键语义信息词的“重要性”,通过词义加权的方式对文本的词频信息进行扰动,提高了模型对电子病历文本中疾病表征词的提取性能。

    一种基于半监督迁移学习的文本分类方法

    公开(公告)号:CN113807171B

    公开(公告)日:2023-09-29

    申请号:CN202110914634.8

    申请日:2021-08-10

    Applicant: 三峡大学

    Abstract: 本发明公开了一种基于半监督迁移学习的文本分类方法,包括以下步骤:(1)数据集和数据预处理,获取少量标记数据集和大量未标记数据集,进行清洗和去噪操作,然后通过word2vec方法将数据集样本向量化,向量维度选取100;(2)数据增强,对未标记数据中的每个样本进行K次文本增强,增强方式为反译方式;(3)伪标签预判,将标记样本输入到预训练模型Bert中,采用微调的方法进行模型迁移;(4)样本混合;(5)文本分类,经过训练后得到的最好模型,可用来对测试集中的数据进行文本分类预测。该基于半监督迁移学习的文本分类方法结合半监督学习、迁移学习用于解决在文本分类领域中标注数据难以获取的问题,同时能够提高文本分类模型的性能。

    一种基于文本特征降维的LSTM注意力机制疾病预测方法

    公开(公告)号:CN113808742B

    公开(公告)日:2024-07-02

    申请号:CN202110915825.6

    申请日:2021-08-10

    Applicant: 三峡大学

    Abstract: 本发明公开了一种基于文本特征降维的LSTM注意力机制疾病预测方法,包括以下步骤:(1)数据预处理;(2)结合电子病历文本特点,形成词特征加权计算方法;(3)利用数据降维提取数据集关键信息;(4)将非结构化的文本数据转化为计算机能识别的结构化数据;(5)LSTM注意力机制模型训练。该基于文本特征降维的LSTM注意力机制疾病预测方法将LDA模型引入LSTM注意力机制中,通过LDA模型实现电子病历文本关键信息的提取,降低数据冗余,进而提升LSTM注意力机制模型的性能。

    一种基于半监督迁移学习的文本分类方法

    公开(公告)号:CN113807171A

    公开(公告)日:2021-12-17

    申请号:CN202110914634.8

    申请日:2021-08-10

    Applicant: 三峡大学

    Abstract: 本发明公开了一种基于半监督迁移学习的文本分类方法,包括以下步骤:(1)数据集和数据预处理,获取少量标记数据集和大量未标记数据集,进行清洗和去噪操作,然后通过word2vec方法将数据集样本向量化,向量维度选取100;(2)数据增强,对未标记数据中的每个样本进行K次文本增强,增强方式为反译方式;(3)伪标签预判,将标记样本输入到预训练模型Bert中,采用微调的方法进行模型迁移;(4)样本混合;(5)文本分类,经过训练后得到的最好模型,可用来对测试集中的数据进行文本分类预测。该基于半监督迁移学习的文本分类方法结合半监督学习、迁移学习用于解决在文本分类领域中标注数据难以获取的问题,同时能够提高文本分类模型的性能。

    一种基于混合式迁移学习的命名实体识别方法

    公开(公告)号:CN113792551A

    公开(公告)日:2021-12-14

    申请号:CN202110915830.7

    申请日:2021-08-10

    Applicant: 三峡大学

    Abstract: 本发明公开了一种基于混合式迁移学习的命名实体识别方法,包括以下步骤:(1)数据预处理;(2)实例迁移;(3)模型预训练:使用源域数据集不断训练BiLSTM‑CRF模型,选取性能最好的参数并保留;(4)模型迁移。该基于混合式迁移学习的命名实体识别方法混合了样本迁移和模型迁移,以解决中文命名实体识别领域样本不足的问题,同时使用最大均值差异构建适应层以解决数据分布不一致的问题,实验过程中通过动态的选择超参数能够在一定程度上降低算法的负迁移现象。

    一种基于文本特征降维的LSTM注意力机制疾病预测方法

    公开(公告)号:CN113808742A

    公开(公告)日:2021-12-17

    申请号:CN202110915825.6

    申请日:2021-08-10

    Applicant: 三峡大学

    Abstract: 本发明公开了一种基于文本特征降维的LSTM注意力机制疾病预测方法,包括以下步骤:(1)数据预处理;(2)结合电子病历文本特点,形成词特征加权计算方法;(3)利用数据降维提取数据集关键信息;(4)将非结构化的文本数据转化为计算机能识别的结构化数据;(5)LSTM注意力机制模型训练。该基于文本特征降维的LSTM注意力机制疾病预测方法将LDA模型引入LSTM注意力机制中,通过LDA模型实现电子病历文本关键信息的提取,降低数据冗余,进而提升LSTM注意力机制模型的性能。

    一种基于词义加权TF-IDF疾病表征词提取方法

    公开(公告)号:CN113807090A

    公开(公告)日:2021-12-17

    申请号:CN202110915839.8

    申请日:2021-08-10

    Applicant: 三峡大学

    Abstract: 本发明公开了一种基于词义加权TF‑IDF疾病表征词提取方法,包括以下步骤:(1)数据预处理;(2)结合电子病历特点,构建本地任务词库;(3)计算文本词义特征加权权重值;(4)统计词频,计算逆文档频率,形成TF‑IDF计算模型,并将词义权重引入模型;(5)模型运行,获取疾病表征词。该基于词义加权TF‑IDF疾病表征词提取方法与传统的TF‑IDF模型相比,本发明提出的技术方案引入了词义加权以提升关键语义信息词的“重要性”,通过词义加权的方式对文本的词频信息进行扰动,提高了模型对电子病历文本中疾病表征词的提取性能。

Patent Agency Ranking