-
公开(公告)号:CN115858798B
公开(公告)日:2024-11-19
申请号:CN202210651618.9
申请日:2022-06-09
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/36 , G06F40/295 , G06F40/30
Abstract: 本发明涉及一种面向维基百科文本数据的事理图谱构建方法和系统,属于文本数据挖掘领域。该方法包括以下步骤:获取维基百科的数据并将其解析为纯文本的形式;使用语义角色标注技术抽取维基百科数据中的事件简介;使用命名实体识别技术对维基百科数据的事件中的人物、地点、机构进行抽取;使用正则表达式匹配技术对维基百科数据的事件中的时间进行抽取;将抽取的事件简介、人物、地点、机构和时间构造为事理图谱。本发明实现了从数据获取、事件抽取、事件论元抽取到图谱构建的相关技术流程,能够帮助研究和分析事件的基本信息和演化过程。
-
公开(公告)号:CN118821782A
公开(公告)日:2024-10-22
申请号:CN202410768553.5
申请日:2024-06-14
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种多粒度相似性增强的篇章级事件论元抽取方法及系统,属于文本信息抽取领域。本发明首先将文档输入预训练语言模型编码,得到高维度嵌入表示;然后构建包含句子和段落节点的异构图,通过图神经网络融合全局语义信息;最后,通过对比学习和排序损失增强段落和句子粒度的相似性。本发明解决了远距离事件论元抽取的难题,并有效缓解了噪音实体对抽取结果的干扰,提高了抽取的准确性和鲁棒性。
-
公开(公告)号:CN115269833B
公开(公告)日:2024-08-16
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06F18/23213 , G06F18/24 , G06F18/25
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN118227796B
公开(公告)日:2024-07-19
申请号:CN202410641847.1
申请日:2024-05-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/33 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 长文本特定内容自动分类与阈值优化方法及其系统,涉及自然语言处理长文本领域。为了解决现有的长文本处理方法在自动分类时存在准确性差、效率低、动态调整、阈值自适应差的缺陷,本发明采用基于深度学习的长文本语义分析模型对待处理的长文本信息数据进行自动分类处理;对长文本进行动态分区域处理;对所述长文本信息数据的语义进行上下文感知融合,提高长文本内容自动分类的准确度;采用误差反馈机制动态调整分类阈值,从而实现长文本内容自动分类的阈值优化。本发明主要用于对互联网长文本的内容进行自动分类和阈值优化。
-
公开(公告)号:CN118227796A
公开(公告)日:2024-06-21
申请号:CN202410641847.1
申请日:2024-05-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/33 , G06F40/289 , G06F40/30 , G06F18/24 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 长文本特定内容自动分类与阈值优化方法及其系统,涉及自然语言处理长文本领域。为了解决现有的长文本处理方法在自动分类时存在准确性差、效率低、动态调整、阈值自适应差的缺陷,本发明采用基于深度学习的长文本语义分析模型对待处理的长文本信息数据进行自动分类处理;对长文本进行动态分区域处理;对所述长文本信息数据的语义进行上下文感知融合,提高长文本内容自动分类的准确度;采用误差反馈机制动态调整分类阈值,从而实现长文本内容自动分类的阈值优化。本发明主要用于对互联网长文本的内容进行自动分类和阈值优化。
-
公开(公告)号:CN116680419B
公开(公告)日:2023-12-26
申请号:CN202310955604.0
申请日:2023-08-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/36 , G06F40/216 , G06F40/30 , G06F40/295
Abstract: 本发明涉及自然语言处理技术领域,提供一种多源数据映射关联细粒度不良信息检测方法,所述方法包括:获取待检测文本和历史浏览文本,待检测文本和历史浏览文本属于同一用户的浏览文本;对待检测文本进行实体关系抽取,得到待检测三元组;获取历史浏览文本中的不良信息所对应的历史三元组,并基于历史三元组与待检测三元组之间的关联度,从待检测三元组中确定出待检测文本中的不良信息所对应的三元组。本发明提供的一种多源数据映射关联细粒度不良信息检测方法,能够准确从待检测三元组中确定出待检测文本中的不良信息所对应的三元组,避免传统方法中分词演变绕过黑名单机制导致漏检的问题,进一步提高的不良信息的检测精度。
-
公开(公告)号:CN115188039A
公开(公告)日:2022-10-14
申请号:CN202210586229.2
申请日:2022-05-27
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种基于图像频域信息的深度伪造视频技术溯源方法,对输入深度伪造视频进行抽帧;将抽出的图像利用RetinaFace人脸检测模型检测人脸图像,并进行人脸对齐和缩放;将裁出的人脸图像利用离散余弦傅里叶变换,裁剪算法和离散余弦傅里叶反变换获得其对应的高频频域特征;将原始人脸RGB信息和高频频域信息进行特征融合,得到融合特征;采用Xception作为主干网络进一步提取融合特征,得到对应的分类特征实现深度伪造视频技术溯源结果。本发明提高了对不同伪造技术的分类能力,提高了溯源准确率。
-
公开(公告)号:CN113297934A
公开(公告)日:2021-08-24
申请号:CN202110512224.0
申请日:2021-05-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了检测互联网暴力有害场景的多模态视频行为分析方法,主要包括视频场景人物快速定位检测、视频场景行为判别、视频场景有害程度定性三个阶段,该方法在行为识别的基础上,将目标人物情绪、网络评论弹幕情绪作为判定维度,实现对特定有害场景的精准发现。
-
公开(公告)号:CN104573033A
公开(公告)日:2015-04-29
申请号:CN201510020876.7
申请日:2015-01-15
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F17/30876 , G06F17/30887
Abstract: 本发明提出了一种动态URL过滤方法及装置,该方法包括:基于URL标注集创建信息字典;针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;对URL特征矩阵进行分类得到特征权重向量和二分类阈值;基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。本发明可以离线处理,不需要访问网络、减少了存储,比较节省处理时间和计算资源。
-
公开(公告)号:CN119068375A
公开(公告)日:2024-12-03
申请号:CN202310617738.1
申请日:2023-05-30
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06V20/40 , G06V10/74 , G06V10/762 , G06V10/764 , G06V10/82 , G06F16/75 , G06F16/783
Abstract: 本发明实施例提供了一种视频类别确定方法和装置,其中,该方法包括:获取多个视频数据集作为训练样本,其中,训练样本包括支撑集和测试集;通过预训练网络分别提取支撑集和测试集的关键帧,并基于支撑集通过Faiss方法构建关键帧检索库;通过预先设定的小样本分类方法基于测试集的关键帧和关键帧检索库进行分类训练,得到分类模型;获取待分类的视频,通过分类模型对待分类的视频进行分类,得到分类结果。通过本发明,解决了视频某一维度信息的分类结果不够准确的问题,达到对视频维度信息分类更准确的效果。
-
-
-
-
-
-
-
-
-