-
公开(公告)号:CN115470792A
公开(公告)日:2022-12-13
申请号:CN202211123853.5
申请日:2022-09-15
Applicant: 长三角信息智能创新研究院
IPC: G06F40/295 , G06N20/00
Abstract: 本发明公开了一种基于预训练语言模型的镇街村居地址标准化方法,所述方法包括:步骤1、对原始地址数据进行清洗;步骤2、将步骤1中清洗好的地址送入训练好的Roberta‑crf模型进行地址实体的抽取;步骤3、对于错误的地址使用基于交互式计算模型进行匹配出地址库内最语义上接近的地址。该方法相较于人工进行抽取地址更加省时省力,相较于基于规则的地址抽取方法更有普适性,相较于基于传统的机器学习进行命名实体任务准确率更高,相较于现有进行命名实体任务的预训练模型的推理速度更快。