一种基于Nutch的Web信息提取方法和系统

    公开(公告)号:CN104516982A

    公开(公告)日:2015-04-15

    申请号:CN201510004508.3

    申请日:2015-01-06

    Applicant: 南通大学

    CPC classification number: G06F16/951

    Abstract: 本发明公开了一种基于Nutch的Web信息提取系统,包括信息提取模块、存储模块、索引模块和检索模块;所述信息提取模块通过Nutch框架从互联网中抓取网页数据,解析数据;所述存储模块用于存储过滤掉网页数据的网页提取文件;所述索引模块用于将Nutch采集的网页信息传递给Solr建立索引;所述检索模块使用Solr响应用户查询请求并把查询结果以XML页面形式显示给用户。提高了信息提取的响应和运行速度、稳定性及可扩展性,减少程序占用过多的存储空间,为用户能够及时地获得有效信息提供保证。

    基于社会网络行为特征的邮件分类方法

    公开(公告)号:CN103198396A

    公开(公告)日:2013-07-10

    申请号:CN201310105350.X

    申请日:2013-03-28

    Applicant: 南通大学

    Abstract: 本发明公开了一种基于社会网络行为特征的邮件分类方法,首先是利用实体和关系抽取技术构建邮件收发社会关系网络和“发件人电子邮件地址-发送邮件时使用的设备的IP地址”关系网络,再根据不同类型的发件人的特点,计算反映各自行为特点的特征,最后,利用样本训练分类器,得到邮件分类的决策信息。本发明具有较好扩展性和伸缩性,并且该方法能够进一步应用于在线社交网络中信息的分类。

Patent Agency Ranking