-
公开(公告)号:CN114638215A
公开(公告)日:2022-06-17
申请号:CN202210231235.6
申请日:2022-03-10
Applicant: 扬州大学
IPC: G06F40/232 , G06F40/284 , G06F40/205 , G06F40/242 , G06F16/903
Abstract: 本发明公开了一种中文拼写纠错的数据集构造方法,包括步骤1)以人工筛选的形式获取新闻文档语句列表;步骤2)构建同音词集合;步骤3)根据同音词集合对新闻文档语句进行筛选;步骤4)对初始新闻语句,获得替换一个同音不同形的词语后句子组成的集合;步骤5)获得被替换的词语和其位置信息;步骤6)由初始新闻语句和相应替换词语后的句子组成句子对序列。本发明充分利用文档中的同音词集合,能够在没有任何人工干预的情况下标记句子中出错的词语及其位置,填补了中文文本简化领域的空白,为中文拼写自动纠正的后续研究奠定了基础。