基于医学命名实体识别的持续学习的模型训练方法及装置

    公开(公告)号:CN115374787A

    公开(公告)日:2022-11-22

    申请号:CN202211294936.0

    申请日:2022-10-21

    Abstract: 本发明公开了基于医学命名实体识别的持续学习的模型训练方法及装置,通过在进行持续学习的模型训练过程中保留种子数据,在使用模型训练新数据时,和新数据一块进行模型训练,在训练得到的新模型具备旧知识后,让新模型能同时拥有新旧知识的能力,采取冻结第0、4、8层的bert层以及参数信息,让其不进行参数更新,保留之前学到的信息,降低旧知识的遗忘性,得到的训练结果遗忘率最低并且准确率最高,在医学领域中,可以既不需要全量的数据进行训练,又不会忘记在原始医院学到的知识,所以能将原始医院的模型适应到新医院进行训练,从而避免新医院进行大量文本标注,节约训练时间,提高训练效率和训练结果的准确率,让医学命名实体识别更为精准。

    一种医学标准映射模型的建立方法、系统及使用方法

    公开(公告)号:CN114996466B

    公开(公告)日:2022-11-01

    申请号:CN202210918247.6

    申请日:2022-08-01

    Abstract: 本发明涉及智慧医疗技术领域,且公开了一种医学标准映射模型的建立方法、系统及使用方法,本发明能够将医学实体数据按照原始词、标准词、标准词编码的类型进行准确的分类,并对分类后的训练数据进行预处理,从而得到统一化的实体数据集;利用统一化的实体数据集作为Bert模型的输入能够减少训练误差,且实体数据集是按照锚文本、正文本和负文本组成的三元组样本的形式进行划分,并能够提高特征向量获取的准确性,加强各文本的特征向量的联系性;同时,通过损失函数的计算和预设条件的设置,能够及时的停止Bert模型的训练,从而获取较准确的医学标准映射模型。

    基于知识图谱及聚类算法的医学相似实体分类方法及系统

    公开(公告)号:CN115080764A

    公开(公告)日:2022-09-20

    申请号:CN202210856458.1

    申请日:2022-07-21

    Abstract: 本发明涉及知识图谱技术领域,具体涉及基于知识图谱及聚类算法的医学相似实体分类方法及系统,本方法包括将医学数据库的数据构成三元组数据集,将三元组数据集作为训练集,对知识图谱学习模型进行训练,得到医学数据库的向量化表示的医学知识图谱,将其三元组通过均值池化层获得三元组的代表向量,利用无监督聚类算法Kmeans对实体和关系的代表向量进行聚类,得出医学知识图谱内的相似术语实体库,将同一簇内的实体作为正样本,将不同簇内的实体作为负样本,将正样本和负样本输入,训练实体相似分类模型,基于实体相似分类模型对实体进行相似判断;本发明解决人工标注相似实体分类繁琐的问题,实现对医学知识图谱无人工的准确构建。

    应用于医学领域的词语处理方法、装置、电子设备和介质

    公开(公告)号:CN115034225A

    公开(公告)日:2022-09-09

    申请号:CN202210654252.0

    申请日:2022-06-10

    Abstract: 本公开的实施例公开了应用于医学领域的词语处理方法、装置、电子设备和介质。该方法的一具体实施方式包括:获取待处理词语;生成待处理词语的词向量;基于词向量,生成待处理词语的语义向量;基于语义向量,确定语义向量对应的预测类别值;计算待处理词语与预设标准词语库中标准词语的相似度,得到相似度集合;基于预测类别值和相似度集合,从预设标准词语库中选择出目标标准词语。该实施方式通过生成待处理词语的词向量、语义向量,学习向量序列之间的语义关联,再根据确定的预测类别值和相似度集合,选择出待处理词语对应的目标标准词语。提高了医学词语标准化的效率和准确度,为医疗数据被应用提供了重要帮助。

    一种自动判断并融合知识图谱的关系抽取方法及系统

    公开(公告)号:CN114925212A

    公开(公告)日:2022-08-19

    申请号:CN202210485506.0

    申请日:2022-05-06

    Abstract: 本发明公开了一种自动判断并融合知识图谱的关系抽取方法及系统,在医学范围内预先建立了小范围的原始数据库,基于此原始数据库并结合医学知识图谱充分获取了待分类的实体的更多特征信息,如实体、句子、属性节点以及上下文信息,提高了模型可获得的信息量,提高关系分类任务的准确率,对不同类型的实体数据进行数据增强和调整超参数,进一步提高了关系分类抽取的准确率;将实体、句子、属性节点以及上下文信息等特征信息融合到关系抽取的任务中并结合注意力机制的计算方式对相关性属性节点进行了筛选,从而能根据节点的关键信息以及当前任务的重要程度做出筛选,考虑到不同语境下的节点所代表的含义,优化了目前构建医学术语集的准确性。

Patent Agency Ranking