-
公开(公告)号:CN115906801A
公开(公告)日:2023-04-04
申请号:CN202211354262.9
申请日:2022-11-01
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F40/205 , G06F16/951 , G06F16/35 , G06F16/31 , G06F16/33 , G06F40/258 , G06F40/289 , G06F40/216 , G06F9/54 , G06N3/048 , G06N3/084
Abstract: 本发明提供了一种基于媒体融合的数据采集方法,本发明主要将多源异构媒体数据,例如:不同种类APP、PC客户端、HTML页面等数据进行结构化抽取并进行数据融合,通过整合已有的反爬技术获取海量异构数据,针对不同种类的原始素材进行分类抽取,从而完成对海量的媒体数据进行初步收集,为后续数据分析做数据储备,方法包括:1,异构数据源的融合;2,垃圾数据过滤;3,文本要素抽取。