基于词汇增强的中文地址要素解析方法、设备及存储介质

    公开(公告)号:CN114792091A

    公开(公告)日:2022-07-26

    申请号:CN202210339889.0

    申请日:2022-04-01

    Abstract: 本发明涉及数据处理技术领域,特别涉及一种基于词汇增强的中文地址要素解析方法、设备及存储介质,其中方法包括:获取中文地址文本;确定中文地址文本中的每个字符、词汇及对应的嵌入表示;将确定的所有字符、词汇均作为令牌,基于各令牌本身对应的嵌入表示、令牌在中文地址文本中的位置以及令牌之间的关联关系,构建平面图;基于平面图中令牌在句子中对应的头尾位置信息,确定每两个令牌之间的最终相对位置编码;基于确定的嵌入表示和最终相对位置编码,通过深度学习进行特征提取;基于提取的特征进行分类,得到解析后的地址要素。本发明通过引入词汇的语义信息和边界信息,能够有效增强字符的语义信息,提升中文地址要素解析准确率。

Patent Agency Ranking