-
公开(公告)号:CN109992645B
公开(公告)日:2021-05-14
申请号:CN201910250572.8
申请日:2019-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 拓尔思信息技术股份有限公司
Abstract: 本发明公开了一种基于文本数据的资料管理系统及方法,属于信息管理系统领域。资料管理系统包括数据上传模块,数据存储模块,数据解析模块,数据检索模块,数据可视化模块,工具箱和管理台。所述方法首先将本地文件利用数据上传模块上传至数据存储模块,然后数据解析模块对上传文件进行解析处理,得到上传文件的属性并进行存储。将解析后的资料内容及附件分别存储在数据存储模块中的全文索引搜索引擎数据库和关系型数据库中。最后采用相似性判断技术,利用数据检索模块对存储到数据库中的资料进行检索;利用数据可视化模块对所有资料内容按分类进行展示、文档操作功能和各种可视化展示。本发明提高了工作效率,提升了对战略研究素材的管理能力。
-
公开(公告)号:CN112214558A
公开(公告)日:2021-01-12
申请号:CN202011296138.2
申请日:2020-11-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/28 , G06F16/33 , G06F16/951 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种主题相关度判别方法及装置,方法包括:对获取的网页构建网页特征向量;利用预先训练的语义向量空间模型对选定的主题特征向量与网页特征向量之间的相似度进行计算;筛选出相似度高于预设值的网页特征向量。本申请结合了语义向量相似度计算和机器学习方法的优点,相比于现有技术,可以实现较高的判别精度,并且本申请在训练样本的筛选上也作出了不同于现有技术的改进。
-
公开(公告)号:CN111858728A
公开(公告)日:2020-10-30
申请号:CN202010605313.5
申请日:2020-06-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/25
Abstract: 本发明公开了不同数据源的数据抽取方法,包括:获取数据源和数据源属性名,计算数据源属性名与预设属性名的相似度,若所述相似度大于预设阈值,则建立所述数据源属性名与所述预设属性名的映射关系,构建属性名映射表;根据所述属性名映射表,获取与所述预设属性名对应的不同数据源,根据数据源的优先级,按照设定的抽取规则抽取数据入库;以及,不同数据源的数据抽取装置,设备和存储介质。本发明通过自动化创建属性名映射表,可以对不同数据源的数据进行自动抽取,高效地构建不同领域的知识库并自动化更新,成本低。
-
公开(公告)号:CN111581956A
公开(公告)日:2020-08-25
申请号:CN202010269087.8
申请日:2020-04-08
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Inventor: 赵忠华 , 吴俊杰 , 赵志云 , 葛自发 , 孙小宁 , 张冰 , 王欣欣 , 李欣 , 袁钟怡 , 孙立远 , 付培国 , 王禄恒 , 左源 , 李丰志 , 李英汉 , 户中方
IPC: G06F40/279 , G06F40/216 , G06F40/242 , G06F40/126 , G06F16/335 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种基于BERT模型和K近邻的敏感信息识别方法,包括:步骤一、对文本进行预处理;步骤二、标注多条预处理文本为敏感信息和非敏感信息,步骤三、表征得到敏感信息的向量表征和非敏感信息的向量表征;步骤四、以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建近似最邻近搜索图;步骤五、将待测文本的向量表征输入至近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断节点属性及根据该条待测文本的敏感度权重,修正其敏感度值后,判断是否为敏感信息。本发明公开了一种基于BERT模型和K近邻的敏感信息识别系统。本发明具有提升文本质量,提升敏感信息识别的速度和精度的有益效果。
-
公开(公告)号:CN117520570A
公开(公告)日:2024-02-06
申请号:CN202310693072.8
申请日:2023-06-12
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/38 , G06F16/25 , G06N3/0442 , G06N3/0464 , G06N3/048 , G06F18/241
Abstract: 本发明公开了一种面向政策文件的智能文本辅助处理系统,属于信息管理领域,具体包括:采集层,数据层,处理层和应用层;所述采集层基于雷达采集软件、python技术以及大数据中心数据推送的方式对政策文件的相关信息进行获取;数据层通过ETL技术将数据载入至数据库;处理层对数据进行清洗加工和智能分析,供应用层使用;应用层实现信息可视化展示、快速检索、自动分类、多语言翻译、引用规范化和语音转写等。本发明具有高效性和易用性,在信息系统管理等领域有重要应用价值。
-
公开(公告)号:CN108920447B
公开(公告)日:2022-08-05
申请号:CN201810426812.0
申请日:2018-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F40/205 , G06F40/284 , G06F40/289
Abstract: 本发明一种面向特定领域的中文事件抽取方法,包括:预处理:对原始数据信息去除冗余标签、分句、分词;字典构建:人工对大规模新闻语料分析,对特定领域常见角色总结,构建角色字典;对报道特定领域事件的常见句型进行总结,构建基于触发词的句型字典;句法分析:对给定的中文新闻报道语句,进行句法解析得到句法解析树;句型匹配:根据句型字典在句法树上进行句型匹配;事件要素抽取:根据角色字典在句法树上进行角色抽取,根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。本发明解决了大数据环境下快速获取中文新闻资讯信息的难题,通过自动化处理,用户根据自己输入关键词即可得到关键词相关的新闻事件,为信息获取提供极大便利。
-
公开(公告)号:CN111930957A
公开(公告)日:2020-11-13
申请号:CN202010598739.2
申请日:2020-06-28
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明实施例公开了实体间亲密度的分析方法、装置、电子设备以及存储介质。所述方法包括:获取知识图谱中的多个实体以及所述多个实体之间的关系;根据所述多个实体中两个实体与所述多个实体中的其他实体之间的关系,确定所述两个实体之间的关系关联度;根据所述两个实体之间的关系关联度,确定所述两个实体之间的亲密度。基于该方法和装置,可以从实体间关系维度对实体间亲密度的分析,提高了实体间亲密度分析的全面性。
-
公开(公告)号:CN111861144A
公开(公告)日:2020-10-30
申请号:CN202010605353.X
申请日:2020-06-29
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了面向多维指标分析的评估方法,包括:获取预定地区的产业发展相关指标的数据,所述产业发展相关指标至少包括产业指标、科研机构指标及政策法规指标;对所述产业发展相关指标的数据执行无量纲化处理;根据无量纲化处理得到的数据,计算所述产业发展相关指标的熵值,根据所述熵值计算所述产业发展相关指标的权值;根据无量纲化处理得到的数据和权值,评估预定地区的产业发展。本发明还提供了面向多维指标分析的评估装置。本发明通过对多个角度的指标数据信息进行获取和计算,实现了全方面、多维度、快速评估。
-
公开(公告)号:CN111461348A
公开(公告)日:2020-07-28
申请号:CN202010264622.0
申请日:2020-04-07
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种基于图核的深度网络嵌入学习模型,包括构造节点的子结构集合、生成子结构的特征向量、在多个重构核希尔伯特空间上近似特征向量、设计基于图核的深度卷积模型、提出一种挖掘潜在社区信息的优化方法5个部分;本发明综合利用了社交网络分析、图算法分析、机器学习等技术,为网络的节点生成高质量表征向量,进而基于该向量可进行其他应用的研究,对进一步研究社交网络的特性和挖掘相关信息提供了关键基础。
-
公开(公告)号:CN109241430A
公开(公告)日:2019-01-18
申请号:CN201811038860.9
申请日:2018-09-06
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/9535 , G06Q50/00
Abstract: 本发明公开了一种互联网多源异质数据融合的选举预测方法,属于数据挖掘领域。首先从互联网数据中,筛选能够反映选举国家或地区民心动向的信息源。然后从筛选出的互联网信息源中提取具体特征,构建基于互联网平台的候选人支持率预测指标体系。最后将提取的各类预测指标视为反映民意的信号,运用卡尔曼滤波模型进行融合,动态实时跟踪预测候选人的支持率。本发明具有数据源广泛、实时性强等特点,在舆情监控和观点分析等领域具有重要的应用价值。
-
-
-
-
-
-
-
-
-