-
公开(公告)号:CN112398871B
公开(公告)日:2023-03-24
申请号:CN202011381937.X
申请日:2020-12-01
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: H04L67/06 , H04L67/025 , H04L67/141 , H04L69/04 , H04L69/164
Abstract: 本发明涉及一种海量文件传输方法及系统,该系统包括:传输中心管理模块,部署在传输中心服务器上,用于管理并展示各个节点的机器信息以及管理传输规则;文件管理模块,部署在各节点上,用于创建和监测文件临时缓存目录;传输管理模块,部署在各节点上,在节点首次安装时创建唯一主机名并上报传输中心管理模块登记,用于定时上报心跳包到传输中心服务器,定时向传输中心服务器请求传输规则下发并保存本地,以及定时向传输中心服务器请求所有主机列表下发并保存本地;文件传输模块,部署在各节点上,用于完成文件传输任务。本发明通过智能化创建管理临时缓存目录,解决海量文件的压缩受文件枚举制约问题,能够适应大数据TB级的文件传输。
-
公开(公告)号:CN109815386B
公开(公告)日:2022-04-29
申请号:CN201811577206.5
申请日:2018-12-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/953 , G06F16/9535 , G06F40/289
Abstract: 本发明提供了一种基于用户画像的构建方法、装置及存储介质,该方法包括:登记用户的个人信息数据,记录用户的网页浏览记录和收藏的网页记录,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签,以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。本发明从用户在浏览器的使用记录信息生成初始兴趣标签,然后,通过改进PageRank算法生成所有用户的最终兴趣标签,减少用户无意识浏览对用户兴趣标签的影响,减少广告网页对用户最终兴趣标签产生的不利影响,以及对未知兴趣标签属性的挖掘,使用户兴趣标签更加准确,使得构建的用户画像信息更为准确。
-
公开(公告)号:CN112380417A
公开(公告)日:2021-02-19
申请号:CN202011382566.7
申请日:2020-12-01
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/951 , G06F16/9535 , G06F16/9538 , G06F16/958
Abstract: 本发明涉及一种基于标签与图的网页推荐方法、终端设备及存储介质,该方法中包括:S1:对所有的用户信息进行分析,提取所有用户对应的所有兴趣标签与权重;S2:通过爬虫系统采集新的网页,并计算每个网页与每个兴趣标签的关联关系和权重;S3:采用基于图的推荐算法,计算出每个用户的待推荐网页列表,并进行展示。本发明由用户的主动参与变为被动参与,在用户正常的日常操作得到对应标签及通过爬虫方式进行热门网页采集后再推荐给用户,提高用户体验感与不同站点的网页个性化需求。
-
公开(公告)号:CN112380467A
公开(公告)日:2021-02-19
申请号:CN202011353097.6
申请日:2020-11-26
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/955 , G06F16/957 , G06F16/958 , G06F9/445 , G06F9/54
Abstract: 本发明涉及一种基于手机的网站数据抽取方法、终端设备及存储介质,该方法中包括:S1:采集社交媒体网站的主页url,并根据主页url构建任务url,将任务url添加至PC机的数据库中的任务表内;S2:在PC机中部署用于手机与PC机进行信息交互的数据传输接口;S3:在PC机的数据库的账号列表内存入社交媒体网站对应的有效账号、代理池内存入有效代理IP;S4:将手机连接PC机后,手机通过调用数据传输接口来下载社交媒体网站的网页源码;S5:通过解析插件对下载的网页源码进行解析,获取网页内容数据;S6:将获取的网页内容数据按照其不同的类型,通过不同的标准进行数据封装并存储。本发明解决了传统爬虫针对社交媒体网站采集难、代理易被封、帐号易被封等问题。
-
公开(公告)号:CN109815386A
公开(公告)日:2019-05-28
申请号:CN201811577206.5
申请日:2018-12-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/953 , G06F16/9535 , G06F17/27
Abstract: 本发明提供了一种基于用户画像的构建方法、装置及存储介质,该方法包括:登记用户的个人信息数据,记录用户的网页浏览记录和收藏的网页记录,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签,以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。本发明从用户在浏览器的使用记录信息生成初始兴趣标签,然后,通过改进PageRank算法生成所有用户的最终兴趣标签,减少用户无意识浏览对用户兴趣标签的影响,减少广告网页对用户最终兴趣标签产生的不利影响,以及对未知兴趣标签属性的挖掘,使用户兴趣标签更加准确,使得构建的用户画像信息更为准确。
-
公开(公告)号:CN116467622A
公开(公告)日:2023-07-21
申请号:CN202310283395.X
申请日:2023-03-22
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本申请提出一种基于兴趣网络的账号分类方法、系统、计算机设备和存储介质,方法包括步骤:获取待分类账号的数据,并进行预处理,获得与账号所属用户的兴趣行为相关的兴趣关系数据,兴趣关系数据包括用户账号列表和事件列表;将用户账号列表转化为无向的账号连接网络图;从事件列表中计算节点特征向量;利用GraphSAGE算法,以账号连接网络图和节点特征向量为输入,获得账号分类结果。该方法以用户之间的兴趣行为关联构建账号连接网络图,以用户关注的事件为兴趣节点,基于改进的GraphSAGE算法进行账号分类。方法可实现对海量账号的有效分类,且不依赖于语种与关键词,无需各类语种的专业人员进行标注,可用于舆情大数据分析相关任务,同时,具备良好的扩展性。
-
公开(公告)号:CN116244544A
公开(公告)日:2023-06-09
申请号:CN202310089981.0
申请日:2023-02-02
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/958 , G06F16/953
Abstract: 本发明提出了一种账号勘采预警的方法,该方法包括如下步骤:响应于初始化任务并获取账号勘查任务;获取账号勘查任务后,按需要开启系统代理并向设定的站点探查是否存在相应账号,若存在则提取账号的基本资料并存储于库中;账号勘查任务完成后进行任务反馈并关闭代理以及休眠等待。用于探查多个设定网站平台的账号注册情况,并提供账号行为预警等功能,可以实现有针对性对特别关注的一类站点进行账号勘查;同时本系统可以实现勘查后接连用户行为的预警推送功能,具备良好的用户勘查分析与行为监测等方面优势。
-
公开(公告)号:CN112398871A
公开(公告)日:2021-02-23
申请号:CN202011381937.X
申请日:2020-12-01
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本发明涉及一种海量文件传输方法及系统,该系统包括:传输中心管理模块,部署在传输中心服务器上,用于管理并展示各个节点的机器信息以及管理传输规则;文件管理模块,部署在各节点上,用于创建和监测文件临时缓存目录;传输管理模块,部署在各节点上,在节点首次安装时创建唯一主机名并上报传输中心管理模块登记,用于定时上报心跳包到传输中心服务器,定时向传输中心服务器请求传输规则下发并保存本地,以及定时向传输中心服务器请求所有主机列表下发并保存本地;文件传输模块,部署在各节点上,用于完成文件传输任务。本发明通过智能化创建管理临时缓存目录,解决海量文件的压缩受文件枚举制约问题,能够适应大数据TB级的文件传输。
-
公开(公告)号:CN108062351A
公开(公告)日:2018-05-22
申请号:CN201711121022.3
申请日:2017-11-14
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F17/30
Abstract: 本发明提供一种关于特定主题类别的文本摘要提取方法、存储介质,通过建立对应主题的单词权值库,以对应特定主题的单词权重为驱动,计算得到每个句子的初始权值,以及两两句子的边权值,再采用改进的PageRank算法进行迭代计算生成文本中每个句子对应特定主题的权重,据此得到摘要。本发明区别于现有技术以当前文本为驱动,所获取的文本摘要不符合用户要求的不足,能够实现在大数据环境下,从各种综合文本中准确提取出与当前主题类别相关的高质量的文本摘要,满足用户对特定主题的文本摘要提取的需求;同时降低提取过程中单词向量空间的维度,降低计算的时间复杂度,满足大数据背景下海量文本处理时的性能需求,为后续文本分析做好铺垫。
-
-
-
-
-
-
-
-