-
公开(公告)号:CN117523587A
公开(公告)日:2024-02-06
申请号:CN202311427150.6
申请日:2023-10-31
Applicant: 厦门理工学院
IPC: G06V30/242 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/0442
Abstract: 本发明涉及一种基于字符敏感编辑距离的零样本汉字识别方法。汉字图像经过编码器,得到特征向量;特征向量分别经过解码器、部首计数模块,得到预测的汉字表意描述序列以及预测部首数量;汉字表意描述序列中的部首数量与预测部首数量相比较,形成代价门控用来约束编辑距离中的插入代价和删除代价。通过查找结构、笔画数、偏旁和四角号码字典信息,获得每个部首对之间的相似度作为替换代价;汉字表意描述序列和IDS字典中的每个候选序列经过编辑距离获得相似得分;选取相似得分最高的候选序列所对应的汉字为最终汉字。本发明方法消除了模型错误识别成相似部首和模型过解析或欠解析造成的部首序列失匹配的影响,有效地提高了对未见汉字的识别能力。