-
公开(公告)号:CN114780667A
公开(公告)日:2022-07-22
申请号:CN202210356507.5
申请日:2022-04-06
Applicant: 上海交通大学
IPC: G06F16/31 , G06F16/35 , G06F16/951 , G06F16/955 , G06F40/211 , G06F40/263 , G06F40/289 , G06F40/30 , G06F40/58 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种语料库构建与过滤方法及系统,包括:步骤1:对获取的初始平行语料进行文档分句对齐处理,得到双语平行语料;步骤2:根据双语平行语料的文本对齐度,进行过滤处理,得到语料库。与现有技术相比,本发明实现了多种互联网多语种语料库的自动采集的方案,并能够基于此完成语料库的自动对齐。此外,还设计了高性能低资源语种的过滤方法,进一步提高了生成语料库的质量,为相关自然语言处理下游任务提供数据保障和支持。