基于自训练文本纠错和文本匹配的医学直报方法及系统

    公开(公告)号:CN116502629B

    公开(公告)日:2023-08-18

    申请号:CN202310735155.9

    申请日:2023-06-20

    Abstract: 本发明涉及疾病预警技术领域,具体为基于自训练文本纠错和文本匹配的医学直报方法及系统;本方法包括基于原始病历数据构造文本纠错模型的训练数据,得到缺字补充模型和错字纠错模型,将新输入数据通过模型进行文本纠错处理,将纠错处理过后的数据,使用bm25算法和jaccard算法计算与已有疾病标准名称知识库的相似度,选择相似度综合评分最大的已有疾病标准名称作为该新输入数据映射的标准疾病名称,与危险传染疾病数据库中的传染疾病名称进行直接匹配检索,若存在相应的数据,则判断当前疾病为危险传染病,将该疾病直接上报给机构,完成危险病直报;实现数据标准化,使得直报系统可以准确识别病症,克服系统不准确的问题。

    基于远程监督的实体识别方法及系统

    公开(公告)号:CN115859989A

    公开(公告)日:2023-03-28

    申请号:CN202310106608.1

    申请日:2023-02-13

    Abstract: 本发明提供了基于远程监督的实体识别方法及系统,包括以下步骤:S1:对目标语句进行分词处理;S2:将分词处理得到的词语与已有知识图谱中的实体进行匹配,并使用预训练bert模型对分词处理得到的词语与已有知识图谱中的实体是否匹配做二分类判别;S3:将能够与现有知识图谱中的实体匹配的词语作为输入数据,输入到深度学习模型LSTM进行实体抽取;S4:将每个词语从深度学习模型LSTM的输出结果与该词语与已有知识图谱中所对应的实体信息进行拼接,完成实体抽取。本发明提供的基于远程监督的实体识别方法及系统,能够在小领域场景中,充分利用现有的知识图谱信息,为实体抽取任务提供额外的特征知识,进而提高在小领域场景中的实体识别准确率。

    基于医学命名实体识别的持续学习的模型训练方法及装置

    公开(公告)号:CN115374787B

    公开(公告)日:2023-01-31

    申请号:CN202211294936.0

    申请日:2022-10-21

    Abstract: 本发明公开了基于医学命名实体识别的持续学习的模型训练方法及装置,通过在进行持续学习的模型训练过程中保留种子数据,在使用模型训练新数据时,和新数据一块进行模型训练,在训练得到的新模型具备旧知识后,让新模型能同时拥有新旧知识的能力,采取冻结第0、4、8层的bert层以及参数信息,让其不进行参数更新,保留之前学到的信息,降低旧知识的遗忘性,得到的训练结果遗忘率最低并且准确率最高,在医学领域中,可以既不需要全量的数据进行训练,又不会忘记在原始医院学到的知识,所以能将原始医院的模型适应到新医院进行训练,从而避免新医院进行大量文本标注,节约训练时间,提高训练效率和训练结果的准确率,让医学命名实体识别更为精准。

    一种增强医疗语句语义向量表示的模型构造方法及系统

    公开(公告)号:CN115545041A

    公开(公告)日:2022-12-30

    申请号:CN202211488054.8

    申请日:2022-11-25

    Abstract: 本发明涉及自然语言处理技术领域,且公开了一种增强医疗语句语义向量表示的模型构造方法,包括收集医学领域的医疗数据,并对所述医疗数据进行预处理,建构一份扩充医学词典;基于所述医疗数据进行预处理结果,保留Bert中的MLM任务,构建损失函数做全词掩码训练;保存训练后的Bert模型,切分所述医疗数据中的每段文本形成句子集合;基于句子集合,对每个句子进行对比学习训练;构建一个新的损失函数,判断当新的损失函数连续3次得出的数据不下降的情况下,得出最终Bert模型作为最终的增强语义向量表示的模型。本专利结合继续预训练和对比学习来有效增强医疗语句语义表示的构造方法,使医疗语句的表达更精确。

    基于医学命名实体识别的持续学习的模型训练方法及装置

    公开(公告)号:CN115374787A

    公开(公告)日:2022-11-22

    申请号:CN202211294936.0

    申请日:2022-10-21

    Abstract: 本发明公开了基于医学命名实体识别的持续学习的模型训练方法及装置,通过在进行持续学习的模型训练过程中保留种子数据,在使用模型训练新数据时,和新数据一块进行模型训练,在训练得到的新模型具备旧知识后,让新模型能同时拥有新旧知识的能力,采取冻结第0、4、8层的bert层以及参数信息,让其不进行参数更新,保留之前学到的信息,降低旧知识的遗忘性,得到的训练结果遗忘率最低并且准确率最高,在医学领域中,可以既不需要全量的数据进行训练,又不会忘记在原始医院学到的知识,所以能将原始医院的模型适应到新医院进行训练,从而避免新医院进行大量文本标注,节约训练时间,提高训练效率和训练结果的准确率,让医学命名实体识别更为精准。

    一种医学标准映射模型的建立方法、系统及使用方法

    公开(公告)号:CN114996466B

    公开(公告)日:2022-11-01

    申请号:CN202210918247.6

    申请日:2022-08-01

    Abstract: 本发明涉及智慧医疗技术领域,且公开了一种医学标准映射模型的建立方法、系统及使用方法,本发明能够将医学实体数据按照原始词、标准词、标准词编码的类型进行准确的分类,并对分类后的训练数据进行预处理,从而得到统一化的实体数据集;利用统一化的实体数据集作为Bert模型的输入能够减少训练误差,且实体数据集是按照锚文本、正文本和负文本组成的三元组样本的形式进行划分,并能够提高特征向量获取的准确性,加强各文本的特征向量的联系性;同时,通过损失函数的计算和预设条件的设置,能够及时的停止Bert模型的训练,从而获取较准确的医学标准映射模型。

    基于知识图谱及聚类算法的医学相似实体分类方法及系统

    公开(公告)号:CN115080764A

    公开(公告)日:2022-09-20

    申请号:CN202210856458.1

    申请日:2022-07-21

    Abstract: 本发明涉及知识图谱技术领域,具体涉及基于知识图谱及聚类算法的医学相似实体分类方法及系统,本方法包括将医学数据库的数据构成三元组数据集,将三元组数据集作为训练集,对知识图谱学习模型进行训练,得到医学数据库的向量化表示的医学知识图谱,将其三元组通过均值池化层获得三元组的代表向量,利用无监督聚类算法Kmeans对实体和关系的代表向量进行聚类,得出医学知识图谱内的相似术语实体库,将同一簇内的实体作为正样本,将不同簇内的实体作为负样本,将正样本和负样本输入,训练实体相似分类模型,基于实体相似分类模型对实体进行相似判断;本发明解决人工标注相似实体分类繁琐的问题,实现对医学知识图谱无人工的准确构建。

    应用于医学领域的词语处理方法、装置、电子设备和介质

    公开(公告)号:CN115034225A

    公开(公告)日:2022-09-09

    申请号:CN202210654252.0

    申请日:2022-06-10

    Abstract: 本公开的实施例公开了应用于医学领域的词语处理方法、装置、电子设备和介质。该方法的一具体实施方式包括:获取待处理词语;生成待处理词语的词向量;基于词向量,生成待处理词语的语义向量;基于语义向量,确定语义向量对应的预测类别值;计算待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合;基于预测类别值和相似度集合,从预设标准词语库中选择出目标标准词语。该实施方式通过生成待处理词语的词向量、语义向量,学习向量序列之间的语义关联,再根据确定的预测类别值和相似度集合,选择出待处理词语对应的目标标准词语。提高了医学词语标准化的效率和准确度,为医疗数据被应用提供了重要帮助。

    一种自动判断并融合知识图谱的关系抽取方法及系统

    公开(公告)号:CN114925212A

    公开(公告)日:2022-08-19

    申请号:CN202210485506.0

    申请日:2022-05-06

    Abstract: 本发明公开了一种自动判断并融合知识图谱的关系抽取方法及系统,在医学范围内预先建立了小范围的原始数据库,基于此原始数据库并结合医学知识图谱充分获取了待分类的实体的更多特征信息,如实体、句子、属性节点以及上下文信息,提高了模型可获得的信息量,提高关系分类任务的准确率,对不同类型的实体数据进行数据增强和调整超参数,进一步提高了关系分类抽取的准确率;将实体、句子、属性节点以及上下文信息等特征信息融合到关系抽取的任务中并结合注意力机制的计算方式对相关性属性节点进行了筛选,从而能根据节点的关键信息以及当前任务的重要程度做出筛选,考虑到不同语境下的节点所代表的含义,优化了目前构建医学术语集的准确性。

Patent Agency Ranking