文本处理方法、装置、存储介质和处理器

    公开(公告)号:CN114781370A

    公开(公告)日:2022-07-22

    申请号:CN202210320797.8

    申请日:2022-03-29

    Inventor: 许士亭 杨青

    Abstract: 本发明公开了一种文本处理方法、装置、存储介质和处理器,本发明涉及语义识别技术领域。其中,该方法包括:获取输入文本,其中,输入文本包括多个输入字;对输入文本进行分词,得到输入文本的初始分词结果,其中,初始分词结果包括:多个输入字的分词概率、第一分词标签和第二分词标签,第一分词标签用于表征输入文本的分词标签,第二分词标签用于表征对输入文本包含的错别字进行纠错处理后得到的分词标签;基于分词概率,从第一分词标签与第二分词标签中选取目标分词标签;通过目标分词标签确定输入文本的目标分词结果。本发明解决了由于训练样本存在错字造成的分词模型识别正确率较低的技术问题。

Patent Agency Ranking