一种基于标签语义增强的中文微博命名实体识别方法

    公开(公告)号:CN117521657A

    公开(公告)日:2024-02-06

    申请号:CN202311745834.0

    申请日:2023-12-19

    Inventor: 杨富平 冯沛林

    Abstract: 本发明涉及一种基于标签语义增强的中文微博命名实体识别方法,包括:获取源域中文语料数据集和目标域中文语料数据集,并进行预处理;构建标签到自然语言的转换文件、以及标签到整数编码的转换字典;根据构建的转换文件对源域中文语料数据集进行预处理;利用预处理后的源域中文语料数据集对命名实体识别模型进行预训练;所述命名实体识别模型包括:BERT模型和CRF模型;根据目标域中文语料数据集预训练的命名实体识别模型进行微调得到训练好的命名实体识别模型;将待识别的中文预料通过训练好的命名实体识别模型和对待识别的中文预料进行命名实体识别,根据标签在语料集中的相似性来提升目标语料集上的准确性,提高预测精度。

    一种ICD自动编码预测方法
    2.
    发明公开

    公开(公告)号:CN117612662A

    公开(公告)日:2024-02-27

    申请号:CN202311562028.X

    申请日:2023-11-22

    Abstract: 本发明涉及一种ICD自动编码预测方法,包括:获取电子病历,利用ICD自动编码模型,输出相似度评分最高的ICD编码。该ICD自动编码模型的训练过程包括:获取电子病历文本和对应的ICD编码,预处理;构建标签树,创建课程学习任务;转化所述输入词为词向量,得到词向量序列,输入编码器;将编码器输出的特征向量输入解码器进行解码,得到标签的向量表示;将解码器得到的聚合表征输入到分类器中,得到当前层的最终输出表示;将当前层的模型参数传递到下一层进行参数初始化,预测目标更新为当前层标签树上的节点集,重复训练,直到完成在标签树最后一层上的训练为止。本发明的重点在于利用标签的结构信息简化学习任务,同时提高预测准确率。

Patent Agency Ranking