-
公开(公告)号:CN115906801A
公开(公告)日:2023-04-04
申请号:CN202211354262.9
申请日:2022-11-01
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F40/205 , G06F16/951 , G06F16/35 , G06F16/31 , G06F16/33 , G06F40/258 , G06F40/289 , G06F40/216 , G06F9/54 , G06N3/048 , G06N3/084
Abstract: 本发明提供了一种基于媒体融合的数据采集方法,本发明主要将多源异构媒体数据,例如:不同种类APP、PC客户端、HTML页面等数据进行结构化抽取并进行数据融合,通过整合已有的反爬技术获取海量异构数据,针对不同种类的原始素材进行分类抽取,从而完成对海量的媒体数据进行初步收集,为后续数据分析做数据储备,方法包括:1,异构数据源的融合;2,垃圾数据过滤;3,文本要素抽取。
-
公开(公告)号:CN116915756A
公开(公告)日:2023-10-20
申请号:CN202310845588.X
申请日:2023-07-10
Applicant: 南京莱斯网信技术研究院有限公司
IPC: H04L65/75 , H04L9/40 , H04N21/235 , H04N21/258
Abstract: 本发明提供了一种多元流媒体数据采集方法,将多元流媒体,例如:内嵌在不同种类APP、PC客户端、HTML页面等视图数据进行源链接提取、特征提取、持久化存储,针对流媒体页面不同的反爬虫手段,获取视图数据,为后续视图内容识别分析做数据储备,方法包括:步骤1,获取待采集流媒体数据的流媒体源地址;步骤2,对流媒体源地址进行合规性验证;步骤3,对通过验证的流媒体源地址,进行分布式采集,得到流媒体数据;步骤4,对采集到的流媒体数据,进行流媒体特征信息提取;步骤5,根据流媒体特征信息,进行流媒体数据融合,得到结构化流媒体数据,完成所述的多元流媒体数据采集。
-
公开(公告)号:CN118963865A
公开(公告)日:2024-11-15
申请号:CN202410942301.X
申请日:2024-07-15
Applicant: 南京莱斯网信技术研究院有限公司
Abstract: 本发明公开了一种基于智能脱壳技术的客户端数据采集方法,属于数据采集技术领域。所述方法包括:步骤1,识别客户端应用程序是否加壳;步骤2,若应用程序加壳,对加壳的应用程序脱壳;步骤3,对脱壳后的应用程序进行数据采集;步骤4,对采集的数据进行处理与存储。该方法基于智能脱壳技术,实现对不同类型应用程序的智能识别和数据抓取,提高了数据采集的智能化水平,使得数据采集过程更加高效、准确和可靠,同时也提高了用户体验和数据的价值。
-
-