一种细粒度中文命名实体识别方法

    公开(公告)号:CN115859983B

    公开(公告)日:2023-08-25

    申请号:CN202211608377.6

    申请日:2022-12-14

    Abstract: 本发明公开了一种细粒度中文命名实体识别方法,基于无标注语料训练BERT,得到训练好的BERT预训练模型;获取中文细粒度命名实体的语料数据,得到中文细粒度命名实体识别数据集;将中文细粒度命名实体识别数据集代入训练好的BERT中文预训练模型中,提取各batch数据的Embedding词向量;获取特征向量之间深层特征;获取长文本之间依赖的离散特征;获取全局最优命名实体序列;获取模型综合损失,得到训练好的综合模型;利用综合模型对中文细粒度命名实体文本进行命名实体识别,得到识别结果。本发明用以解决现有的命名实体识别技术在细粒度命名实体识别时容易丢失中文长文本之间的信息依赖的缺陷,实现避免长文本的信息依赖丢失、更好提取长文本特征的目的。

    一种细粒度中文命名实体识别方法

    公开(公告)号:CN115859983A

    公开(公告)日:2023-03-28

    申请号:CN202211608377.6

    申请日:2022-12-14

    Abstract: 本发明公开了一种细粒度中文命名实体识别方法,基于无标注语料训练BERT,得到训练好的BERT预训练模型;获取中文细粒度命名实体的语料数据,得到中文细粒度命名实体识别数据集;将中文细粒度命名实体识别数据集代入训练好的BERT中文预训练模型中,提取各batch数据的Embedding词向量;获取特征向量之间深层特征;获取长文本之间依赖的离散特征;获取全局最优命名实体序列;获取模型综合损失,得到训练好的综合模型;利用综合模型对中文细粒度命名实体文本进行命名实体识别,得到识别结果。本发明用以解决现有的命名实体识别技术在细粒度命名实体识别时容易丢失中文长文本之间的信息依赖的缺陷,实现避免长文本的信息依赖丢失、更好提取长文本特征的目的。

Patent Agency Ranking