-
公开(公告)号:CN117149949A
公开(公告)日:2023-12-01
申请号:CN202311059658.5
申请日:2023-08-22
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/33 , G06F16/335 , G06F16/35 , G06F18/23
Abstract: 本发明公开了一种融合多源信息的人名消歧方法及装置,所述方法包括:将所有文本划分为若干个类;基于同名作者对应的机构名称、文本共同作者和文本主题内容,分别对每一类文本进行聚类,以得到该类文本的机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果;基于簇内机构信息及文本的共现信息,对机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果进行融合,得到该类文本的初步聚类结果;提取初步聚类结果中的单簇文本,并基于所述单簇文本与该类文本中其他文本的相似度进行单簇文本的融合后,得到人名消歧结果。本发明可以实现了更好的消歧准确率。
-
公开(公告)号:CN116910754A
公开(公告)日:2023-10-20
申请号:CN202310947894.4
申请日:2023-07-31
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F21/56 , G06F16/33 , G06F16/35 , G06F16/36 , G06F40/295 , G06F40/30 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明属于应用程序技术领域,具体为一种基于知识图谱的高危App检测识别方法。本发明提供了基于知识图谱的高危App检测识别方法,包括数据采集:根据预设采集规则,面向境内主流的移动应用市场进行全网信息采集;采用代理自动切换和多线程并发策略,结合深度优先遍历、广度优先遍历、种子池搜索、ID索引等技术进行全量数据获取。无需人工干涉,系统自动捕获最新的应用版本,既能确保追踪应用信息的更新,又能确保捕获应用信息的新增,同时还不影响兼顾采集效率;通过借助构建的App知识图谱关联关系及纯文本语义关系,综合处理获取信息,实现对App多维度的风险检测评估,本发明以整体关联分析的方法处理,速度快且灵活性高。
-
公开(公告)号:CN116306613A
公开(公告)日:2023-06-23
申请号:CN202211531946.1
申请日:2022-12-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/284 , G06F40/211 , G06F21/62 , G06F18/214 , G06N3/0442 , G06N3/0895
Abstract: 本发明公开了一种基于半监督学习的DHT网络敏感内容识别方法,通过爬取DHT网络得到网络数据并对其中部分数据进行人工标注,构建了文件元数据数据集,同时针对种子信息文本自身具有的有效信息较为分散等特征,采用基于注意力机制的双向长短期记忆网络模型进行敏感内容识别,运用基于数据驱动的学习型算法极大减少了人工干预定义规则的需求,同时针对DHT网络数据训练过程中存在的数据量少、数据不平衡及无效样本多等问题,采用基于有标签数据和无标签数据同时进行训练的半监督学习方法有效提升了模型在小样本标注数据集上的训练效果。
-
公开(公告)号:CN116260739A
公开(公告)日:2023-06-13
申请号:CN202211531948.0
申请日:2022-12-01
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种BitTorrent网络敏感信息传播监测方法,基于DHT信息动态感知根据DHT网络节点相邻原理和资源寻址算法构造模拟节点,将模拟节点加入DHT网络使其进入出现敏感行为的DHT网络节点路由表中感知敏感信息的交互,并在网络中出现新的敏感节点时基于现有模拟节点构造新增模拟节点实现对新的敏感节点的监测,由此基于模拟节点的生成机制实现了DHT网络中涉及敏感信息传播行为的节点的高效发现。
-
公开(公告)号:CN115269833A
公开(公告)日:2022-11-01
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06K9/62
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
-
-
-