一种网络爬虫伪装数据的生成方法及系统

    公开(公告)号:CN110555146A

    公开(公告)日:2019-12-10

    申请号:CN201810270472.7

    申请日:2018-03-29

    Abstract: 本发明提供一种网络爬虫伪装数据的生成方法,其步骤包括:从浏览器的用户代理useragent字串库中选择一useragent字串,从代理IP资源池中获取一代理IP;利用所述useragent字串和所代理IP访问目标网站,根据cookie获取策略,获取cookie信息并存储于cookie资源池;将所述cookie信息与所述useragent字串、所述代理IP、多个同城代理IP、referer信息关联存储,并打包成伪装数据;根据调度策略将所述伪装数据供外部爬虫程序使用。本发明还提供一种网络爬虫伪装数据的生成系统。

    一种舆情信息中的个性化垃圾信息过滤方法及系统

    公开(公告)号:CN108874852A

    公开(公告)日:2018-11-23

    申请号:CN201810229800.9

    申请日:2018-03-20

    Abstract: 本发明提供一种舆情信息中的个性化垃圾信息过滤方法及系统,该方法的步骤包括:基于通用词库和用户个性化词库,构建内存索引库;对含有舆情信息的原始文档进行分词处理,去除停用词;根据所述内存索引库,对经过上述处理的文档进行识别,识别出垃圾信息和非垃圾信息;将上述非垃圾信息输入到可更新的信息分类模型中,进一步识别出垃圾信息和非垃圾信息;基于通用垃圾识别标注语料和用户个性化垃圾识别标注语料,对所述信息分类模型识别出的非垃圾信息进行垃圾信息和非垃圾信息的标记,生成训练集,用来更新所述信息分类模型。

    一种提速的基于IPC编码的查询处理方法

    公开(公告)号:CN106909621A

    公开(公告)日:2017-06-30

    申请号:CN201710035078.0

    申请日:2017-01-17

    Abstract: 本发明涉及一种提速的基于IPC编码的查询处理方法。该方法把IPC编码下的索引文件视为树形的跳表文件,实现快读略过子树的算法;在处理布尔的求交查询时,根据链表的单调性判断是否略过(skip)某些子树,略过(skip)操作可节省大量时间从而提高线上布尔查询处理速度;在处理排序查询时,使用常见的TAAT处理方式与continue机制,根据ID列表的求交结果的位置可以快速取出对应的频率的索引文件的对应的值,通过略过所有不必要访问的子树的手段提高线上排序查询的处理速度。本发明根据IPC编码的特点优化了查询速度(包括布尔查询与排序查询),优化了检索系统的用户体验。

    一种提速的基于IPC编码的查询处理方法

    公开(公告)号:CN106909621B

    公开(公告)日:2020-02-11

    申请号:CN201710035078.0

    申请日:2017-01-17

    Abstract: 本发明涉及一种提速的基于IPC编码的查询处理方法。该方法把IPC编码下的索引文件视为树形的跳表文件,实现快读略过子树的算法;在处理布尔的求交查询时,根据链表的单调性判断是否略过(skip)某些子树,略过(skip)操作可节省大量时间从而提高线上布尔查询处理速度;在处理排序查询时,使用常见的TAAT处理方式与continue机制,根据ID列表的求交结果的位置可以快速取出对应的频率的索引文件的对应的值,通过略过所有不必要访问的子树的手段提高线上排序查询的处理速度。本发明根据IPC编码的特点优化了查询速度(包括布尔查询与排序查询),优化了检索系统的用户体验。

    一种基于人工智能的多级文本多标签分类方法及系统

    公开(公告)号:CN108073677A

    公开(公告)日:2018-05-25

    申请号:CN201711063644.5

    申请日:2017-11-02

    Abstract: 本发明涉及一种基于人工智能的多级文本多标签分类方法及系统。该方法包括:1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。本发明只通过文档级的标注信息来推断组成文本的标签,可以很好的应用于组成文本标签难以收集的场景;相对于传统多示例学习方法,本发明引入最少假设,能够更好地拟合实际数据;本发明具有良好的可扩展性。

    基于PPPoE网络接入的高集成度网络采集系统及方法

    公开(公告)号:CN105049288B

    公开(公告)日:2017-10-24

    申请号:CN201510452306.5

    申请日:2015-07-28

    Inventor: 李鹏 王斌 郭莉

    Abstract: 本发明涉及一种基于PPPoE网络接入的高集成度网络采集系统及方法。该系统包括一采集服务器,采用支持PPPoE网络接入、支持多用户路由功能的Linux操作系统,并设有如下模块:采集模块,用于获取采集任务,发起HTTP请求,以及接收并处理远端服务器返回的数据;拨号断开模块,用于断开PPPoE线路;拨号连接模块,用于PPPoE线路的拨号连接并配置网络路由;拨号管理模块,用于管理多条PPPoE线路接入并执行PPPoE线路的断线、连接操作;IP管理模块,用于对采集使用的IP进行管理,实现IP注册和IP查询。本发明能够有效突破IP限制、低成本地增加带宽,从而提高互联网数据采集效率。

    基于PPPoE网络接入的高集成度网络采集系统及方法

    公开(公告)号:CN105049288A

    公开(公告)日:2015-11-11

    申请号:CN201510452306.5

    申请日:2015-07-28

    Inventor: 李鹏 王斌 郭莉

    CPC classification number: H04L43/04 H04L12/2859 H04L43/50

    Abstract: 本发明涉及一种基于PPPoE网络接入的高集成度网络采集系统及方法。该系统包括一采集服务器,采用支持PPPoE网络接入、支持多用户路由功能的Linux操作系统,并设有如下模块:采集模块,用于获取采集任务,发起HTTP请求,以及接收并处理远端服务器返回的数据;拨号断开模块,用于断开PPPoE线路;拨号连接模块,用于PPPoE线路的拨号连接并配置网络路由;拨号管理模块,用于管理多条PPPoE线路接入并执行PPPoE线路的断线、连接操作;IP管理模块,用于对采集使用的IP进行管理,实现IP注册和IP查询。本发明能够有效突破IP限制、低成本地增加带宽,从而提高互联网数据采集效率。

    一种元搜索列表结果抽取方法及系统

    公开(公告)号:CN109948015B

    公开(公告)日:2023-10-03

    申请号:CN201710880652.2

    申请日:2017-09-26

    Abstract: 本发明提供一种元搜索列表结果抽取方法,步骤包括:获取元搜索检索结果的网页源代码;对所述网页源代码基于XPATH解析,确定检索结果区域和扩展区域的XPATH路径,抽取列表项信息和扩展信息;如果基于XPATH解析失败,则对所述网页源代码基于统计信息规则提取列表项信息,并基于启发式规则提取扩展信息;将所述抽取的列表项信息和扩展信息作为抽取结果进行封装,组成用于元搜索的数据结构。本发明还提供一种元搜索列表结果抽取系统。

    一种面向用户个人文件的聚类方法及系统

    公开(公告)号:CN108399213B

    公开(公告)日:2022-04-01

    申请号:CN201810112624.0

    申请日:2018-02-05

    Abstract: 本发明提供一种面向用户个人文件的聚类方法,步骤包括:利用用户对相似文件的保存习惯对用户文件进行分组,得到多个文件组;对文件组内的文件进行聚类,得到一个或多个局部簇,每个局部簇内的文件内容相似;将每个局部簇视为一个文件,对所有局部簇进行聚类,生成全局簇。本发明还提供一种面向用户个人文件的聚类系统,包括聚类计算单元、聚类结果存储单元和聚类结果查找单元,其中聚类计算单元包括批量文件聚类计算单元和增量文件聚类计算单元。

Patent Agency Ranking