-
公开(公告)号:CN116821456A
公开(公告)日:2023-09-29
申请号:CN202310675183.6
申请日:2023-06-08
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/951 , G06F16/953 , G06F9/54
Abstract: 公开了一种基于浏览器的网页数据抽取方法和系统,包括根据预置关键词,访问社交网站根据预置关键词进行自动搜索;根据搜索结果过滤需访问的主页页面,并获取主页页面的网页源码;根据网页源码判断网页页面类型,并构建各页面类型对应的主页链接,将主页链接作为任务下发至第一消息队列中;调用预先配置好的社交网站登录账号,通过代理服务自动登录社交网站,通过爬虫程序从第一消息队列中下载网页源码,解析并抽取网页数据。本申请实现了对社交媒体网站访问到内容抽取的系统设计流程,解决了传统爬虫针对社交媒体网站采集难、代理易被封、帐号易被封等问题,为社交媒体网站中信息的发现与应用构建提供了数据支撑。
-
公开(公告)号:CN116467622A
公开(公告)日:2023-07-21
申请号:CN202310283395.X
申请日:2023-03-22
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本申请提出一种基于兴趣网络的账号分类方法、系统、计算机设备和存储介质,方法包括步骤:获取待分类账号的数据,并进行预处理,获得与账号所属用户的兴趣行为相关的兴趣关系数据,兴趣关系数据包括用户账号列表和事件列表;将用户账号列表转化为无向的账号连接网络图;从事件列表中计算节点特征向量;利用GraphSAGE算法,以账号连接网络图和节点特征向量为输入,获得账号分类结果。该方法以用户之间的兴趣行为关联构建账号连接网络图,以用户关注的事件为兴趣节点,基于改进的GraphSAGE算法进行账号分类。方法可实现对海量账号的有效分类,且不依赖于语种与关键词,无需各类语种的专业人员进行标注,可用于舆情大数据分析相关任务,同时,具备良好的扩展性。
-
公开(公告)号:CN116244544A
公开(公告)日:2023-06-09
申请号:CN202310089981.0
申请日:2023-02-02
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/958 , G06F16/953
Abstract: 本发明提出了一种账号勘采预警的方法,该方法包括如下步骤:响应于初始化任务并获取账号勘查任务;获取账号勘查任务后,按需要开启系统代理并向设定的站点探查是否存在相应账号,若存在则提取账号的基本资料并存储于库中;账号勘查任务完成后进行任务反馈并关闭代理以及休眠等待。用于探查多个设定网站平台的账号注册情况,并提供账号行为预警等功能,可以实现有针对性对特别关注的一类站点进行账号勘查;同时本系统可以实现勘查后接连用户行为的预警推送功能,具备良好的用户勘查分析与行为监测等方面优势。
-
公开(公告)号:CN112398871A
公开(公告)日:2021-02-23
申请号:CN202011381937.X
申请日:2020-12-01
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种海量文件传输方法及系统,该系统包括:传输中心管理模块,部署在传输中心服务器上,用于管理并展示各个节点的机器信息以及管理传输规则;文件管理模块,部署在各节点上,用于创建和监测文件临时缓存目录;传输管理模块,部署在各节点上,在节点首次安装时创建唯一主机名并上报传输中心管理模块登记,用于定时上报心跳包到传输中心服务器,定时向传输中心服务器请求传输规则下发并保存本地,以及定时向传输中心服务器请求所有主机列表下发并保存本地;文件传输模块,部署在各节点上,用于完成文件传输任务。本发明通过智能化创建管理临时缓存目录,解决海量文件的压缩受文件枚举制约问题,能够适应大数据TB级的文件传输。
-
公开(公告)号:CN110888983A
公开(公告)日:2020-03-17
申请号:CN201911171315.1
申请日:2019-11-26
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种正负面情感分析方法、终端设备及存储介质,该方法中包括:S1:构建和维护对应不同行业的行业关键词规则和行业情感词典;S2:判断待分析的文本数据中是否包含行业关键词规则中所包含的关键词,如果包含,进入S3;否则,进入S4;S3:根据关键词所属的行业和行业所对应的行业关键词规则,判断该文本数据所属的所有行业后,根据每个行业对应的行业情感词典计算每个行业的情感得分,进而获得该文本数据的情感正负面分析结果;S4:通过训练后的机器学习模型得到该文本数据的情感正负面分析结果。本发明采用基于行业情感词与机器学习模型融合的情感分析方法,将网络文本分而治之,提高分析效果。
-
公开(公告)号:CN111209737B
公开(公告)日:2022-09-13
申请号:CN201911398056.6
申请日:2019-12-30
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/211 , G06F40/289
Abstract: 本发明公开了一种噪声文档的筛除方法及计算机可读存储介质,方法包括:根据种子词集合,检索得到原始语料;从原始语料中提取有效文本;对有效文本进行分句,并进行数据清洗;获取共现句中的重点词语,得到关键词集合;根据种子词集合、关键词集合和预设的相关类高频词集合,得到相关类关键词表;分别计算相关类关键词表中的各相关词语在有效文本中作为重点句法成分的出现比例,得到各相关词语的关键词权重;分别计算各无关词语的关键词权重;获取有效文本中的相关词语和无关词语,并根据对应的关键词权重,计算有效文本的得分;若得分小于预设的阈值,则判定为噪声文本。本发明可剔除无关文本,提高搜索结果语料质量。
-
公开(公告)号:CN107749033A
公开(公告)日:2018-03-02
申请号:CN201711096102.8
申请日:2017-11-09
Applicant: 厦门市美亚柏科信息股份有限公司
CPC classification number: G06Q50/01 , G06K9/6223
Abstract: 本发明涉及一种网络社区活跃用户簇的发现方法、终端设备及存储介质。在该方法中,包括以下步骤:S10:通过网络社区软件收集该网络社区内的用户群体;S20:获取代表用户活跃度的用户特征数据,包括交互数据和关系数据;S30:去除低活跃度用户;S40:根据特征数据对用户活跃度的影响大小不同确定用户特征数据的权重;S50:根据各特征数据及其所占权重的值,得到每个用户的特征数据模型;S60:通过聚类算法根据用户的相似度将用户分为不同的用户簇;S70:通过计算各用户簇的聚类中心与完全不活跃用户的距离确定活跃用户簇。本发明通过对用户在网络社区内部的信息交流数据和社交关系数据进行综合考虑,建立用户特征数据模型,通过聚类算法找出活跃用户簇。
-
公开(公告)号:CN112380866B
公开(公告)日:2025-01-21
申请号:CN202011334632.3
申请日:2020-11-25
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F40/295 , G06F40/30 , G06F16/335 , G06N3/045 , G06N3/08
Abstract: 本发明涉及一种文本话题标签生成方法、终端设备及存储介质,该方法中包括:S1:将待识别话题文本进行数据清洗后,进行命名实体识别;S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,构建神经网络模型,通过训练集对神经网络模型进行训练,其中样本中的一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出;S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。本发明通过逻辑语义标签训练生成,可对大范围文本进行话题语义的关联度量,将文本相似度范围进行可解释性归纳。
-
公开(公告)号:CN112398871B
公开(公告)日:2023-03-24
申请号:CN202011381937.X
申请日:2020-12-01
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: H04L67/06 , H04L67/025 , H04L67/141 , H04L69/04 , H04L69/164
Abstract: 本发明涉及一种海量文件传输方法及系统,该系统包括:传输中心管理模块,部署在传输中心服务器上,用于管理并展示各个节点的机器信息以及管理传输规则;文件管理模块,部署在各节点上,用于创建和监测文件临时缓存目录;传输管理模块,部署在各节点上,在节点首次安装时创建唯一主机名并上报传输中心管理模块登记,用于定时上报心跳包到传输中心服务器,定时向传输中心服务器请求传输规则下发并保存本地,以及定时向传输中心服务器请求所有主机列表下发并保存本地;文件传输模块,部署在各节点上,用于完成文件传输任务。本发明通过智能化创建管理临时缓存目录,解决海量文件的压缩受文件枚举制约问题,能够适应大数据TB级的文件传输。
-
公开(公告)号:CN112487398A
公开(公告)日:2021-03-12
申请号:CN202011468769.8
申请日:2020-12-15
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种字符型验证码自动识别方法、终端设备及存储介质,该方法中包括:S1:采集字符型验证码图片并对其进行标注后组成训练集;S2:构建卷积神经网络模型,通过训练集对卷积神经网络模型进行训练,使得训练后的最终模型的识别准确率大于准确率阈值;S3:当接收到字符型验证码图片时,将字符型验证码图片转换成二进制文件流后,输入最终模型进行识别,输出识别结果。本发明解决了在数据采集过程中目标网站有字符型图片验证码人机验证机制时,爬虫无法自动识别验证的问题,保障数据采集程序的高效性及稳定性,对数据采集程序的高效稳定采集能够起到重要作用。
-
-
-
-
-
-
-
-
-