一种基于HTML流处理的数据采集方法和系统

    公开(公告)号:CN101859321A

    公开(公告)日:2010-10-13

    申请号:CN201010179377.X

    申请日:2010-05-20

    Applicant: 复旦大学

    Inventor: 施洋 张奇 黄萱菁

    Abstract: 本发明属于网页信息抽取技术领域,具体是一种基于HTML数据流处理的数据采集方法和系统。它由多线程收集器和下载控制模板以及数据存储系统构成。多线程收集器保证了工作速度,下载控制模板保证了工作的准确性。本系统可以在通过简单的模板配置,完成对使用人需要的网络数据的采集。实际应用表明本发明具有良好的稳定性,高度的实用性以及高效的效率。

Patent Agency Ranking