一种基于浏览器的网页数据抽取方法和系统

    公开(公告)号:CN116821456A

    公开(公告)日:2023-09-29

    申请号:CN202310675183.6

    申请日:2023-06-08

    Abstract: 公开了一种基于浏览器的网页数据抽取方法和系统,包括根据预置关键词,访问社交网站根据预置关键词进行自动搜索;根据搜索结果过滤需访问的主页页面,并获取主页页面的网页源码;根据网页源码判断网页页面类型,并构建各页面类型对应的主页链接,将主页链接作为任务下发至第一消息队列中;调用预先配置好的社交网站登录账号,通过代理服务自动登录社交网站,通过爬虫程序从第一消息队列中下载网页源码,解析并抽取网页数据。本申请实现了对社交媒体网站访问到内容抽取的系统设计流程,解决了传统爬虫针对社交媒体网站采集难、代理易被封、帐号易被封等问题,为社交媒体网站中信息的发现与应用构建提供了数据支撑。

    一种社交数据采集方法及装置
    2.
    发明公开

    公开(公告)号:CN114880585A

    公开(公告)日:2022-08-09

    申请号:CN202210632768.5

    申请日:2022-06-06

    Abstract: 本发明公开一种社交数据采集方法及装置,通过获取待观察的主社区中所有第一社交账号的关系型数据和与主社区对应的特征词语组集合,并根据关系型数据获取与每一第一社交账号对应的第二社交账号生成对应的子社区,再获取子社区中第二社交账号的信息生成特征词语组,通过特征词语组与特征词语组集合之间的关系判断第二社交账号与主社区之间的关系,即能够追踪到当前时间段内与主社区群体事件相关的第二社交账号,并将第二社交账号加入主社区内进行监测,从而能够有效的将群体事件的参与者们进行关联并采集对应的事件信息;并且将第二社交账号加入主社区,还实现对主社区的动态扩展,从而实现对群体事件发展的动态监控。

    一种海量文件传输方法及系统

    公开(公告)号:CN112398871A

    公开(公告)日:2021-02-23

    申请号:CN202011381937.X

    申请日:2020-12-01

    Abstract: 本发明涉及一种海量文件传输方法及系统,该系统包括:传输中心管理模块,部署在传输中心服务器上,用于管理并展示各个节点的机器信息以及管理传输规则;文件管理模块,部署在各节点上,用于创建和监测文件临时缓存目录;传输管理模块,部署在各节点上,在节点首次安装时创建唯一主机名并上报传输中心管理模块登记,用于定时上报心跳包到传输中心服务器,定时向传输中心服务器请求传输规则下发并保存本地,以及定时向传输中心服务器请求所有主机列表下发并保存本地;文件传输模块,部署在各节点上,用于完成文件传输任务。本发明通过智能化创建管理临时缓存目录,解决海量文件的压缩受文件枚举制约问题,能够适应大数据TB级的文件传输。

    一种海量文件传输方法及系统

    公开(公告)号:CN112398871B

    公开(公告)日:2023-03-24

    申请号:CN202011381937.X

    申请日:2020-12-01

    Abstract: 本发明涉及一种海量文件传输方法及系统,该系统包括:传输中心管理模块,部署在传输中心服务器上,用于管理并展示各个节点的机器信息以及管理传输规则;文件管理模块,部署在各节点上,用于创建和监测文件临时缓存目录;传输管理模块,部署在各节点上,在节点首次安装时创建唯一主机名并上报传输中心管理模块登记,用于定时上报心跳包到传输中心服务器,定时向传输中心服务器请求传输规则下发并保存本地,以及定时向传输中心服务器请求所有主机列表下发并保存本地;文件传输模块,部署在各节点上,用于完成文件传输任务。本发明通过智能化创建管理临时缓存目录,解决海量文件的压缩受文件枚举制约问题,能够适应大数据TB级的文件传输。

    一种自动解析论坛网站数据的方法

    公开(公告)号:CN110764781B

    公开(公告)日:2022-06-14

    申请号:CN201911034106.2

    申请日:2019-10-29

    Abstract: 本发明涉及一种自动解析论坛网站数据的方法,其中,所述方法包括以下步骤:S1、生成论坛解析插件模板:收集论坛格式样例,生成论坛解析插件模板并存储在论坛解析插件模板中心库中;S2、筛选论坛解析插件模板:获取待解析论坛网站的源码,根据源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板;S3、解析论坛网站数据:根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储本发明通过对互联网上面的论坛网站的网页数据进行判断,针对特定论坛网站筛选出了指定的论坛解析插件模板,为论坛网站数据的采集工作提供了精确的采集范围,同时更提高了对论坛网站数据采集的效率。

    一种新闻网页的信息抽取方法及终端

    公开(公告)号:CN114329143A

    公开(公告)日:2022-04-12

    申请号:CN202111649035.4

    申请日:2021-12-30

    Abstract: 本发明公开一种新闻网页的信息抽取方法及终端,获取新闻网页的HTML源码,并对所述HTML源码进行一次预处理,得到一次预处理后的HTML源码;根据预设XPATH规则对所述一次预处理后的HTML源码进行信息抽取,得到网页标题、发布标题、发布作者和发布时间;对所述一次预处理后的HTML源码进行二次预处理,得到二次预处理后的HTML源码;利用文本密度公式与符号密度公式对所述二次预处理后的HTML源码进行信息抽取,得到发布内容,实现了新闻网页信息的自动化抽取,且对HTML源码进行一次预处理能够过滤掉其中的无用信息,进而提高信息抽取效率,能够进一步提高发布内容抽取的精确度,从而提高了新闻网页中信息抽取的效率和准确率。

    一种基于手机的网站数据抽取方法、终端设备及存储介质

    公开(公告)号:CN112380467A

    公开(公告)日:2021-02-19

    申请号:CN202011353097.6

    申请日:2020-11-26

    Abstract: 本发明涉及一种基于手机的网站数据抽取方法、终端设备及存储介质,该方法中包括:S1:采集社交媒体网站的主页url,并根据主页url构建任务url,将任务url添加至PC机的数据库中的任务表内;S2:在PC机中部署用于手机与PC机进行信息交互的数据传输接口;S3:在PC机的数据库的账号列表内存入社交媒体网站对应的有效账号、代理池内存入有效代理IP;S4:将手机连接PC机后,手机通过调用数据传输接口来下载社交媒体网站的网页源码;S5:通过解析插件对下载的网页源码进行解析,获取网页内容数据;S6:将获取的网页内容数据按照其不同的类型,通过不同的标准进行数据封装并存储。本发明解决了传统爬虫针对社交媒体网站采集难、代理易被封、帐号易被封等问题。

    新闻网站的网页判别处理方法、终端设备及存储介质

    公开(公告)号:CN107908780A

    公开(公告)日:2018-04-13

    申请号:CN201711272600.3

    申请日:2017-12-06

    Abstract: 本发明公开一种新闻网站的网页判别处理方法、终端设备及存储介质,通过采集当前网页的子网页信息,进而对子网页进行分类,再根据每个分类中子网页链接的标题的平均长度,来筛选出新闻详文页,进而通过当前网页所包含的新闻详文页的个数,判断出新闻版块页,从而将新闻版块页作为采集目标并从筛选出的新闻详闻页里采集提取新闻数据,从而提高新闻数据采集的效率。

Patent Agency Ranking