-
公开(公告)号:CN116304919A
公开(公告)日:2023-06-23
申请号:CN202310041782.2
申请日:2023-01-11
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F18/2431 , G06F18/214
Abstract: 本发明提出了一种改进多分类样本不均衡的分类模型的方法及其系统,包括:训练步骤,基于获取的训练数据进行数据分析后,根据各个类别的数据量,及预设的数据分组与划分规则进行类别组合与分组划分,进一步利用分层结构分类模型中的组分类模型与各组的子类别分类模型分别进行逐层的分类训练;预测步骤,首先加载所述组分类模型与各组的所述子类别分类模型,然后将预测数据先输入所述组分类模型进行分类预测,以判断各组的分组标签,再根据所述分组标签选择对应的所述子类别分类模型,进行最终的子类别预测。通过改进分类模型的框架结构,来提升分类效果,解决样本不均衡时的多分类问题,提升分类效果与准确性,同时提高模型的鲁棒性与泛化能力。
-
公开(公告)号:CN110912896B
公开(公告)日:2022-02-25
申请号:CN201911177336.4
申请日:2019-11-27
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: H04L9/40
-
公开(公告)号:CN110912896A
公开(公告)日:2020-03-24
申请号:CN201911177336.4
申请日:2019-11-27
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: H04L29/06
Abstract: 本发明涉及一种非侵入式的HTTP接口安全策略注入方法,包括以下步骤:S1、设计一个前端与服务端互相配合完成HTTP请求验证的安全策略,包括在前端生成特定形式的鉴权数据的逻辑和在服务端验证该鉴权数据的逻辑;S2、在前端通过预制作的前端代码构建工具插件操作构建过程,使底层对象被代理,代理对象拦截所有向接口发送的请求,并按安全策略中生成鉴权数据的逻辑改造请求,使其可以被验证;S3、在服务端导入依赖模块对所有被发往接口的请求进行预处理,按安全策略中验证鉴权数据的逻辑对其进行验证,使得只有验证通过的请求才可进入其目标接口执行。
-
公开(公告)号:CN109815386B
公开(公告)日:2022-04-29
申请号:CN201811577206.5
申请日:2018-12-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/953 , G06F16/9535 , G06F40/289
Abstract: 本发明提供了一种基于用户画像的构建方法、装置及存储介质,该方法包括:登记用户的个人信息数据,记录用户的网页浏览记录和收藏的网页记录,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签,以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。本发明从用户在浏览器的使用记录信息生成初始兴趣标签,然后,通过改进PageRank算法生成所有用户的最终兴趣标签,减少用户无意识浏览对用户兴趣标签的影响,减少广告网页对用户最终兴趣标签产生的不利影响,以及对未知兴趣标签属性的挖掘,使用户兴趣标签更加准确,使得构建的用户画像信息更为准确。
-
公开(公告)号:CN112995291A
公开(公告)日:2021-06-18
申请号:CN202110158253.1
申请日:2021-02-05
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: H04L29/08 , H04L29/06 , G06F16/951
Abstract: 本发明涉及一种基于代理的HTTP报文采集方法、终端设备及存储介质,该方法中包括:S1:构建HTTP报文代理模块,通过HTTP报文代理模块接收爬虫模块发送的HTTP请求报文;S2:判断HTTP报文库是否存在与接收的HTTP请求报文相同的HTTP请求报文,如果是,进入S4;否则,进入S3;S3:将HTTP请求报文转发至对应的爬取目标服务器,并接收HTTP响应报文,将HTTP响应报文转发至爬虫模块,同时将HTTP请求报文和HTTP响应报文存入HTTP报文库内,并记录关联关系;S4:从HTTP报文库获取HTTP请求报文关联的HTTP响应报文,并将其转发至爬虫模块。本发明从而避免了爬虫模块对不是由爬取目标服务器的内容更新而进行的重新采集,减轻了爬取目标服务器的负担,也避免了可能造成的网络虚拟财产损失。
-
公开(公告)号:CN109657117A
公开(公告)日:2019-04-19
申请号:CN201811341252.5
申请日:2018-11-12
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/951 , G06F16/955
Abstract: 本发明提供一种网页要素的自动提取方法、系统及计算机存储介质,该方法包括:基于浏览器插件提取所述网页的URL,获取爬虫采集规则库和网站版块集合;判断所述网站版块集合在爬虫采集规则库中是否存在提取规则,如果所述爬虫采集规则库中存在所述网站版块集合的提取规则,则提取所述网页的要素;判断所述网页的要素是否提取成功,如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。根据本发明的方法、系统及计算机存储介质,可以增加提取网页要素以及截图的准确性、灵活性、易用性,为信息编辑人员查阅收集网页信息提供很好的技术支持。
-
公开(公告)号:CN112995291B
公开(公告)日:2023-02-21
申请号:CN202110158253.1
申请日:2021-02-05
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: H04L67/02 , H04L67/60 , H04L67/56 , H04L9/40 , G06F16/951
Abstract: 本发明涉及一种基于代理的HTTP报文采集方法、终端设备及存储介质,该方法中包括:S1:构建HTTP报文代理模块,通过HTTP报文代理模块接收爬虫模块发送的HTTP请求报文;S2:判断HTTP报文库是否存在与接收的HTTP请求报文相同的HTTP请求报文,如果是,进入S4;否则,进入S3;S3:将HTTP请求报文转发至对应的爬取目标服务器,并接收HTTP响应报文,将HTTP响应报文转发至爬虫模块,同时将HTTP请求报文和HTTP响应报文存入HTTP报文库内,并记录关联关系;S4:从HTTP报文库获取HTTP请求报文关联的HTTP响应报文,并将其转发至爬虫模块。本发明从而避免了爬虫模块对不是由爬取目标服务器的内容更新而进行的重新采集,减轻了爬取目标服务器的负担,也避免了可能造成的网络虚拟财产损失。
-
公开(公告)号:CN114238732A
公开(公告)日:2022-03-25
申请号:CN202111312377.7
申请日:2021-11-08
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/951 , G06F16/955 , G06F16/957
Abstract: 本发明公开一种爬取贴文过程中的数据排重方法,通过当前链接接收页面数据的同时获取数据中的多组关键字段,并将多组关键字段组合并生成与页面数据对应的第一关键值,当内网中存在与当前数据的第一关键值相同的另一第一关键值时,表示当前数据为重复数据,将其排除,实现第一次排重;然后再获取当前链接信息,当前链接信息与预设的关键字段组合并生成与页面数据对应的第二关键值,当内网中不存在与当前第二关键值相同的另一第二关键值时,则判断为新数据,否则判断为重复数据,实现第二次排重;通过比较第一关键值和第二关键值对接收数据进行两次排重,极大降低了从外网爬取到相同数据的可能性,降低爬取数据过程中数据的重复率。
-
公开(公告)号:CN109815386A
公开(公告)日:2019-05-28
申请号:CN201811577206.5
申请日:2018-12-21
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F16/953 , G06F16/9535 , G06F17/27
Abstract: 本发明提供了一种基于用户画像的构建方法、装置及存储介质,该方法包括:登记用户的个人信息数据,记录用户的网页浏览记录和收藏的网页记录,对所述用户的搜索网页记录和收藏的网页记录进行处理得到初始兴趣标签,以所述初始兴趣标签为起点关联用户的网页浏览记录,以生成最终兴趣标签,基于用户的所述最终兴趣标签和个人信息数据为该用户构建用户画像。本发明从用户在浏览器的使用记录信息生成初始兴趣标签,然后,通过改进PageRank算法生成所有用户的最终兴趣标签,减少用户无意识浏览对用户兴趣标签的影响,减少广告网页对用户最终兴趣标签产生的不利影响,以及对未知兴趣标签属性的挖掘,使用户兴趣标签更加准确,使得构建的用户画像信息更为准确。
-
公开(公告)号:CN116339687A
公开(公告)日:2023-06-27
申请号:CN202310131080.3
申请日:2023-02-17
Applicant: 厦门市美亚柏科信息股份有限公司
Abstract: 本申请提出一种软件的微服务化开发方法和系统,方法包括:构建领域层:将待开发软件的业务范围划分为多个业务领域,识别核心业务领域,在核心业务领域内构建领域模型,用于待开发软件的核心业务处理;构建第一基础设施层;包括统一的API网关;构建第二基础设施层;包括多个封装的数据库和多个封装的通用服务模块,并提供RPC接口;构建应用层;其中,业务需求通过统一的API网关分发至应用层和/或领域层,第二基础设施层通过RPC层为应用层和领域层提供通用服务。本申请还提出应用上述方法或系统的风暴企业监测软件开发方法和系统。上述方法基于DDD理论,实现有效分离需求变更较高的业务,降低现有技术中微服务系统分析和设计过程中的复杂度。
-
-
-
-
-
-
-
-
-