一种网络社区活跃用户簇的发现方法、终端设备及存储介质

    公开(公告)号:CN107749033A

    公开(公告)日:2018-03-02

    申请号:CN201711096102.8

    申请日:2017-11-09

    CPC classification number: G06Q50/01 G06K9/6223

    Abstract: 本发明涉及一种网络社区活跃用户簇的发现方法、终端设备及存储介质。在该方法中,包括以下步骤:S10:通过网络社区软件收集该网络社区内的用户群体;S20:获取代表用户活跃度的用户特征数据,包括交互数据和关系数据;S30:去除低活跃度用户;S40:根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重;S50:根据各特征数据及其所占权重的值,得到每个用户的特征数据模型;S60:通过聚类算法根据用户的相似度将用户分为不同的用户簇;S70:通过计算各用户簇的聚类中心与完全不活跃用户的距离确定活跃用户簇。本发明通过对用户在网络社区内部的信息交流数据和社交关系数据进行综合考虑,建立用户特征数据模型,通过聚类算法找出活跃用户簇。

    一种基于浏览器的网页数据抽取方法和系统

    公开(公告)号:CN116821456A

    公开(公告)日:2023-09-29

    申请号:CN202310675183.6

    申请日:2023-06-08

    Abstract: 公开了一种基于浏览器的网页数据抽取方法和系统,包括根据预置关键词,访问社交网站根据预置关键词进行自动搜索;根据搜索结果过滤需访问的主页页面,并获取主页页面的网页源码;根据网页源码判断网页页面类型,并构建各页面类型对应的主页链接,将主页链接作为任务下发至第一消息队列中;调用预先配置好的社交网站登录账号,通过代理服务自动登录社交网站,通过爬虫程序从第一消息队列中下载网页源码,解析并抽取网页数据。本申请实现了对社交媒体网站访问到内容抽取的系统设计流程,解决了传统爬虫针对社交媒体网站采集难、代理易被封、帐号易被封等问题,为社交媒体网站中信息的发现与应用构建提供了数据支撑。

    一种社交数据采集方法及装置
    3.
    发明公开

    公开(公告)号:CN114880585A

    公开(公告)日:2022-08-09

    申请号:CN202210632768.5

    申请日:2022-06-06

    Abstract: 本发明公开一种社交数据采集方法及装置,通过获取待观察的主社区中所有第一社交账号的关系型数据和与主社区对应的特征词语组集合,并根据关系型数据获取与每一第一社交账号对应的第二社交账号生成对应的子社区,再获取子社区中第二社交账号的信息生成特征词语组,通过特征词语组与特征词语组集合之间的关系判断第二社交账号与主社区之间的关系,即能够追踪到当前时间段内与主社区群体事件相关的第二社交账号,并将第二社交账号加入主社区内进行监测,从而能够有效的将群体事件的参与者们进行关联并采集对应的事件信息;并且将第二社交账号加入主社区,还实现对主社区的动态扩展,从而实现对群体事件发展的动态监控。

    一种字符型验证码自动识别方法、终端设备及存储介质

    公开(公告)号:CN112487398A

    公开(公告)日:2021-03-12

    申请号:CN202011468769.8

    申请日:2020-12-15

    Abstract: 本发明涉及一种字符型验证码自动识别方法、终端设备及存储介质,该方法中包括:S1:采集字符型验证码图片并对其进行标注后组成训练集;S2:构建卷积神经网络模型,通过训练集对卷积神经网络模型进行训练,使得训练后的最终模型的识别准确率大于准确率阈值;S3:当接收到字符型验证码图片时,将字符型验证码图片转换成二进制文件流后,输入最终模型进行识别,输出识别结果。本发明解决了在数据采集过程中目标网站有字符型图片验证码人机验证机制时,爬虫无法自动识别验证的问题,保障数据采集程序的高效性及稳定性,对数据采集程序的高效稳定采集能够起到重要作用。

    一种在分布式环境下动态调度IP代理池的方法、装置及存储介质

    公开(公告)号:CN109743411B

    公开(公告)日:2022-03-01

    申请号:CN201811509275.2

    申请日:2018-12-10

    Abstract: 本发明提供了一种在分布式环境下动态调度IP代理池的方法、装置及存储介质。该方法包括:构建步骤,扫描代理IP资源,为扫描获得的代理IP初始化状态标识后构建IP代理池;检测步骤,对初始代IP理池中的代理IP进行检测,并根据检测结果更新代理IP的状态标识;调度步骤,获取IP代理池中M个代理IP生成代理IP队列以供下载中心请求使用。本发明确保代理池中的可用IP代理保持在一定数量之上,并根据加锁机制和缓存机制,实现单个代理IP在面对多线程调度的情况下可以做到时间维度上的有序响应,防止单个代理IP高频率访问,通过IP代理池、有效性检测及调度的协同,使分布式数据采集系统在保证采集效率的同时,又可以避免因高频率访问导致访问失败。

    一种在分布式环境下动态调度IP代理池的方法、装置及存储介质

    公开(公告)号:CN109743411A

    公开(公告)日:2019-05-10

    申请号:CN201811509275.2

    申请日:2018-12-10

    Abstract: 本发明提供了一种在分布式环境下动态调度IP代理池的方法、装置及存储介质。该方法包括:构建步骤,扫描代理IP资源,为扫描获得的代理IP初始化状态标识后构建IP代理池;检测步骤,对初始代IP理池中的代理IP进行检测,并根据检测结果更新代理IP的状态标识;调度步骤,获取IP代理池中M个代理IP生成代理IP队列以供下载中心请求使用。本发明确保代理池中的可用IP代理保持在一定数量之上,并根据加锁机制和缓存机制,实现单个代理IP在面对多线程调度的情况下可以做到时间维度上的有序响应,防止单个代理IP高频率访问,通过IP代理池、有效性检测及调度的协同,使分布式数据采集系统在保证采集效率的同时,又可以避免因高频率访问导致访问失败。

    一种新闻网页的信息抽取方法及终端

    公开(公告)号:CN114329143A

    公开(公告)日:2022-04-12

    申请号:CN202111649035.4

    申请日:2021-12-30

    Abstract: 本发明公开一种新闻网页的信息抽取方法及终端,获取新闻网页的HTML源码,并对所述HTML源码进行一次预处理,得到一次预处理后的HTML源码;根据预设XPATH规则对所述一次预处理后的HTML源码进行信息抽取,得到网页标题、发布标题、发布作者和发布时间;对所述一次预处理后的HTML源码进行二次预处理,得到二次预处理后的HTML源码;利用文本密度公式与符号密度公式对所述二次预处理后的HTML源码进行信息抽取,得到发布内容,实现了新闻网页信息的自动化抽取,且对HTML源码进行一次预处理能够过滤掉其中的无用信息,进而提高信息抽取效率,能够进一步提高发布内容抽取的精确度,从而提高了新闻网页中信息抽取的效率和准确率。

    一种基于手机的网站数据抽取方法、终端设备及存储介质

    公开(公告)号:CN112380467A

    公开(公告)日:2021-02-19

    申请号:CN202011353097.6

    申请日:2020-11-26

    Abstract: 本发明涉及一种基于手机的网站数据抽取方法、终端设备及存储介质,该方法中包括:S1:采集社交媒体网站的主页url,并根据主页url构建任务url,将任务url添加至PC机的数据库中的任务表内;S2:在PC机中部署用于手机与PC机进行信息交互的数据传输接口;S3:在PC机的数据库的账号列表内存入社交媒体网站对应的有效账号、代理池内存入有效代理IP;S4:将手机连接PC机后,手机通过调用数据传输接口来下载社交媒体网站的网页源码;S5:通过解析插件对下载的网页源码进行解析,获取网页内容数据;S6:将获取的网页内容数据按照其不同的类型,通过不同的标准进行数据封装并存储。本发明解决了传统爬虫针对社交媒体网站采集难、代理易被封、帐号易被封等问题。

Patent Agency Ranking