-
公开(公告)号:CN115587595A
公开(公告)日:2023-01-10
申请号:CN202211380333.2
申请日:2022-11-03
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F40/284 , G06F40/126
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种用于病理文本命名的多粒度实体识别方法,该方法包括:获取病理文本信息,对病理文本按照字粒度、词粒度进行切分;对切分后的文本进行随机mask掩码和向量初始化,使用两个参数共享的Bert模型对随机mask掩码和向量初始化后的文本进行编码;给每个类别的每个实体预设中心代替词和中心代替字;使用KL loss和CE loss对字粒度和词粒度构造损失函数,CE loss针对替换后的字粒度计算损失进行优化,KE loss对替换后词粒度计算损失进行优化,得到实体识别结果。本发明通过字粒度,词粒度构建模板进行预测,可对病理文本的实体进行精准的识别抽取,实体识别效果较好。
-
公开(公告)号:CN113627172A
公开(公告)日:2021-11-09
申请号:CN202110845130.5
申请日:2021-07-26
Applicant: 重庆邮电大学
IPC: G06F40/284 , G06F40/295 , G06F40/216 , G06K9/62
Abstract: 本发明涉及信息提取领域,尤其涉及一种基于多粒度特征融合和不确定去噪的实体识别方法及系统,包括使用Transformer对语料文本进行字粒度的多级局部特征提取,得到局部字粒度特征;使用jieba工具进行分词,并使用Glove预训练的词向量将得到的分词进行向量嵌入,得到全局词粒度特征;对分词后得到的词集进行编码,得到文本的词结构编码向量;将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中,最终得到识别的实体结果;本发明可对病理领域中文文本进行精准、全面的实体抽取,抽取效果较好。
-