Patent search ap:("扬州大学") AND inv:"钦唯一" Page 1

1.

发明公开
一种中文拼写纠错的数据集构造方法无效

公开(公告)号：CN114638215A

公开(公告)日：2022-06-17

申请号：CN202210231235.6

申请日：2022-03-10

Applicant: 扬州大学

Inventor： 钦唯一 , 强继朋

IPC: G06F40/232 , G06F40/284 , G06F40/205 , G06F40/242 , G06F16/903

Abstract: 本发明公开了一种中文拼写纠错的数据集构造方法，包括步骤1）以人工筛选的形式获取新闻文档语句列表；步骤2）构建同音词集合；步骤3）根据同音词集合对新闻文档语句进行筛选；步骤4）对初始新闻语句，获得替换一个同音不同形的词语后句子组成的集合；步骤5）获得被替换的词语和其位置信息；步骤6）由初始新闻语句和相应替换词语后的句子组成句子对序列。本发明充分利用文档中的同音词集合，能够在没有任何人工干预的情况下标记句子中出错的词语及其位置，填补了中文文本简化领域的空白，为中文拼写自动纠正的后续研究奠定了基础。

Patent Agency Ranking