-
公开(公告)号:CN118503512A
公开(公告)日:2024-08-16
申请号:CN202410512695.5
申请日:2024-04-26
Applicant: 南京莱斯网信技术研究院有限公司 , 东南大学
IPC: G06F16/953 , G06F16/27 , G06F16/2458 , G06F16/2452 , G06F16/483 , G06F9/50
Abstract: 本发明提出了一种面向大规模网络舆情的Elasticsearch检索优化系统,包括:数据汇聚模块、优化机制和检索服务模块;其中:所述数据汇聚模块,用于对网络舆情多模态数据,经过预处理后得到的中间数据发送到分布式消息总线Kafka中,最终持久化保存到Elasticsearch分布式检索引擎中;所述优化机制,包括:基于深度学习模型SBert构建文本语义向量,用于实现语义检索;基于CLIP多模态对比学习模型将网络舆情多模态数据中的文本和图片转成文本向量和图片向量,用于向量检索;采用分片优化策略优化Elasticsearch分布式检索引擎的检索性能;所述检索服务模块,用于使用布尔组合查询器,基于优化机制中构建的文本语义向量、文本向量和图片向量,进行多模态检索。
-
公开(公告)号:CN116842378A
公开(公告)日:2023-10-03
申请号:CN202310670809.4
申请日:2023-06-07
Applicant: 南京莱斯网信技术研究院有限公司 , 东南大学
IPC: G06F18/214 , G06F18/2132 , G06F18/10 , G06F18/25 , G06F16/25 , G06F16/28 , G06F40/216 , G06F18/22
Abstract: 本发明提供了基于舆情实时数据流的自适应LDA主题模型训练系统,包括数据汇聚模块、数据预处理模块、自适应LDA模型训练模块和增量式LDA模型融合模块;数据汇聚模块用于对结构化、半结构化数据进行抽取和转换加载,并输入到分布式的消息总线kafka中;数据预处理模块用于对消息总线kafka中的数据进行预处理,最后形成加权词向量;自适应LDA模型训练模块用于训练得到LDA模型结果,并将训练结果进行合并;增量式LDA模型融合模块用于进行融合训练生成新一轮LDA模型。本发明从准确率及性能上都优于传统LDA主题分析方法,并应用于网络舆情领域事件检测、推荐、词云及检索等实际工程项目中,创造了商业价值。
-
公开(公告)号:CN114297462A
公开(公告)日:2022-04-08
申请号:CN202111515500.5
申请日:2021-12-13
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F16/951 , G06F16/955 , G06F12/12 , G06F9/48
Abstract: 本发明提供了一种基于动态自适应的网站异步序列数据智能采集方法,本发明在已有爬虫集群、账号池和IP池基础上,针对常见的反爬技术,如ajax动态加载技术、动态cookie访问限制、系统安全防护、异常访问行为监测和异常账号监测等反爬技术,通过动态自适应的智能采集系统实现目标主流网站的实时数据采集,通过分布式网络爬虫安全回传实现目标网站数据连续获取和隐蔽传输,为进一步数据分析做好铺垫。
-
公开(公告)号:CN117454021A
公开(公告)日:2024-01-26
申请号:CN202311318361.6
申请日:2023-10-12
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F16/9536 , G06F16/28 , G06F16/22 , G06F16/242 , G06F16/2458
Abstract: 本发明提供了一种基于生成式智能算法的新媒体内容检测方法,主要通过持续获取目标网站数据,通过目标数据库,对所述目标网站数据进行目标信息筛选。本发明技术,主要结合:基于短词智能扩充的违规样本构建技术,即通过短词智能扩充的方式扩充违规样本,从而使得违规信息命中范围更广;基于社交语义的违规信息关联模型构建技术,即通过违规信息关联模型,对于网络日新月异的新生社交词汇关联汇总,从而充违规样本;基于生成式智能算法的文本检测方法,即通过生成式智能算法,来提升模型的泛化性,进而消除样本先验概率偏差。本发明有效拓宽违规信息命中范围,进一步提高了结果的准确性。
-
公开(公告)号:CN115906801A
公开(公告)日:2023-04-04
申请号:CN202211354262.9
申请日:2022-11-01
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F40/205 , G06F16/951 , G06F16/35 , G06F16/31 , G06F16/33 , G06F40/258 , G06F40/289 , G06F40/216 , G06F9/54 , G06N3/048 , G06N3/084
Abstract: 本发明提供了一种基于媒体融合的数据采集方法,本发明主要将多源异构媒体数据,例如:不同种类APP、PC客户端、HTML页面等数据进行结构化抽取并进行数据融合,通过整合已有的反爬技术获取海量异构数据,针对不同种类的原始素材进行分类抽取,从而完成对海量的媒体数据进行初步收集,为后续数据分析做数据储备,方法包括:1,异构数据源的融合;2,垃圾数据过滤;3,文本要素抽取。
-
公开(公告)号:CN118963865A
公开(公告)日:2024-11-15
申请号:CN202410942301.X
申请日:2024-07-15
Applicant: 南京莱斯网信技术研究院有限公司
Abstract: 本发明公开了一种基于智能脱壳技术的客户端数据采集方法,属于数据采集技术领域。所述方法包括:步骤1,识别客户端应用程序是否加壳;步骤2,若应用程序加壳,对加壳的应用程序脱壳;步骤3,对脱壳后的应用程序进行数据采集;步骤4,对采集的数据进行处理与存储。该方法基于智能脱壳技术,实现对不同类型应用程序的智能识别和数据抓取,提高了数据采集的智能化水平,使得数据采集过程更加高效、准确和可靠,同时也提高了用户体验和数据的价值。
-
公开(公告)号:CN111950273B
公开(公告)日:2023-09-01
申请号:CN202010757144.7
申请日:2020-07-31
Applicant: 南京莱斯网信技术研究院有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/216 , G06F40/242 , G06F16/35 , G06F16/955 , G06F16/9536 , G06N3/0442 , G06N3/045 , G06N3/047 , G06N3/084
Abstract: 本发明提供了基于情感信息抽取分析的网络舆情突发事件自动识别方法,包括:根据社交媒体采集方法获取海量社交媒体数据以及进行数据过滤清洗等数据预处理;根据历史社交媒体数据训练情感模型,形成情感识别模型;根据情感识别模型,对社交媒体中突发情感进行检测与分析;提取突发情感对应社交媒体标签,通过分词处理识别突发情感对应标签的事件原始关键词,形成事件原始关键词库;提取社交媒体事件关键词,并与关键词库进行匹配,关键词完全匹配并情感状态为未负面时,获取对应事件基本信息,形成突发事件描述。本发明适用于多种社交媒体突发事件的识别,可拓展性高,复用性好,开发代价低,可根据业务需求多维度应用。
-
公开(公告)号:CN116055134A
公开(公告)日:2023-05-02
申请号:CN202211682251.3
申请日:2022-12-26
Applicant: 南京莱斯网信技术研究院有限公司
IPC: H04L9/40 , H04L67/1097 , G06F16/958
Abstract: 本发明提出了一种互联网信息的电子取证方法,包括:对电子取证的环境进行清洁;打开待取证互联网网页;提取待取证互联网网页的信息;获取取证可信时间戳,得到取证时间,将证据信息进行固证处理并进行证据指纹计算,得到证据指纹,生成电子证据包文件;将电子证据包文件存储至分布式文件存储系统,并取得证据包文件路径;将证据包文件路径、证据指纹以及取证时间等信息存储至区块链平台取得区块链信息,即区块高度和区块HASH信息;将区块链信息和电子证据相关的其他业务数据存储至业务数据库,完成互联网信息提取及固证,即完成互联网信息的电子取证。
-
公开(公告)号:CN110704542A
公开(公告)日:2020-01-17
申请号:CN201910978247.3
申请日:2019-10-15
Applicant: 南京莱斯网信技术研究院有限公司
Abstract: 本发明提供了一种基于节点负载的数据动态分区系统,包括负载监测采集、预测、数据预分区、数据迁移等模块;采用二次平滑法预测节点负载,结合了AHP和熵值指标权重法,能够根据不同的数据分析应用得到相应的分区策略,动态调整系统的负载均衡性,提高应用的响应速度。本发明针对Spark和Memsql分布式集成框架的应用场景,由于分布式环境存在节点资源的异构性,为了减少节点之间数据传输消耗,充分利用每个节点的计算资源,通过负载均衡性来提高应用分析的并行计算效率。为此,本发明提出一种基于节点负载的数据动态分区机制和策略来改善系统负载均衡性及提高应用的响应速度,辅助相关工作人员完成决策。
-
公开(公告)号:CN114297462B
公开(公告)日:2024-11-12
申请号:CN202111515500.5
申请日:2021-12-13
Applicant: 中国电子科技集团公司第二十八研究所 , 南京莱斯网信技术研究院有限公司
IPC: G06F16/951 , G06F16/955 , G06F12/12 , G06F9/48
Abstract: 本发明提供了一种基于动态自适应的网站异步序列数据智能采集方法,本发明在已有爬虫集群、账号池和IP池基础上,针对常见的反爬技术,如ajax动态加载技术、动态cookie访问限制、系统安全防护、异常访问行为监测和异常账号监测等反爬技术,通过动态自适应的智能采集系统实现目标主流网站的实时数据采集,通过分布式网络爬虫安全回传实现目标网站数据连续获取和隐蔽传输,为进一步数据分析做好铺垫。
-
-
-
-
-
-
-
-
-