-
公开(公告)号:CN103020043A
公开(公告)日:2013-04-03
申请号:CN201210464713.4
申请日:2012-11-16
Applicant: 哈尔滨工业大学
Abstract: 一种面向web双语平行语料资源的分布式采集系统,它涉及语料获取技术领域。本发明克服了现有系统爬取规模较小,获得语料渠道较少,爬取效率较低的问题。本发明所述的系统包括链接存储库模块、筛选过滤器模块、网页爬行器模块、原始网页库模块、双语探测模块、黑名单模块、双语网页库模块和链接抽取器模块。本发明克服了现有技术领域的技术偏见,将互联网作为语料获取对象,通过应用本发明所描述的系统,可以有效地解决分布式系统资源的占有矛盾问题;可以为双语平行语料采集系统,提供一个通用的设计架构;可以不断动态的将非双语站点加入黑名单,能够高效的抓取互联网中双语平行语料;可以极大幅度的提高双语语料抓取的效率。