-
公开(公告)号:CN113033148A
公开(公告)日:2021-06-25
申请号:CN202110235522.X
申请日:2021-03-03
Applicant: 北京工业大学
IPC: G06F40/117 , G06F40/126 , G06F40/237 , G06F40/295 , G06F16/33 , G06K9/62
Abstract: 本发明公开了一种改进的命名实体识别方法,首先提出不再使用偏旁部首或者笔画等方式对字进行字形的获取,而是将字转化为图片的形式,转变为图像处理,可以从更形象的角度更充分的捕捉汉字的字形特征。通过将形成的图像通过预训练模型,快速地得到结果,一定程度上解决了汉字训练数据少的问题。将拼音不作为一整块进行编码,而是将拼音按发音成分拆封成声母、韵母、声调来进行编码,一定程度上更好地捕捉了汉字的字音特征。本发明通过将albert中在命名实体识别任务中重要的四层进行了选择与拼接,实现了对albert模型的微调,提高了模型性能。