-
公开(公告)号:CN111581956B
公开(公告)日:2022-09-13
申请号:CN202010269087.8
申请日:2020-04-08
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Inventor: 赵忠华 , 吴俊杰 , 赵志云 , 葛自发 , 孙小宁 , 张冰 , 王欣欣 , 李欣 , 袁钟怡 , 孙立远 , 付培国 , 王禄恒 , 左源 , 李丰志 , 李英汉 , 户中方
IPC: G06F40/279 , G06F40/216 , G06F40/242 , G06F40/126 , G06F16/335 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种基于BERT模型和K近邻的敏感信息识别方法,包括:步骤一、对文本进行预处理;步骤二、标注多条预处理文本为敏感信息和非敏感信息,步骤三、表征得到敏感信息的向量表征和非敏感信息的向量表征;步骤四、以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建近似最邻近搜索图;步骤五、将待测文本的向量表征输入至近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断节点属性及根据该条待测文本的敏感度权重,修正其敏感度值后,判断是否为敏感信息。本发明公开了一种基于BERT模型和K近邻的敏感信息识别系统。本发明具有提升文本质量,提升敏感信息识别的速度和精度的有益效果。
-
公开(公告)号:CN113761215A
公开(公告)日:2021-12-07
申请号:CN202110321491.X
申请日:2021-03-25
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
Inventor: 赵忠华 , 李建广 , 余智华 , 王禄恒 , 陈欣洁 , 赵志云 , 冯凯 , 葛自发 , 杜漫 , 孙小宁 , 穆庆伟 , 万欣欣 , 申双成 , 李欣 , 孙立远 , 付培国 , 王晴 , 杜宛真
IPC: G06F16/36 , G06F16/35 , G06F40/242 , G06F40/295
Abstract: 本发明公开了一种基于反馈自学习的动态字典库生成方法,包括以下步骤:S1、字典库定义;S2、基于字典库分类体系;S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型;S5、将S4步生成的预测数据回填到字典库。有益效果:该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。
-
公开(公告)号:CN113255360A
公开(公告)日:2021-08-13
申请号:CN202110418139.8
申请日:2021-04-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/284 , G06F40/126 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本发明实施例公开了基于层次化自注意力网络的文档评级方法和装置。该方法包括:获取目标文档的评论文本,其中,所述评论文本包含多个评论,各评论包含多个句子;提取各句子中各词语的特征;基于自注意力机制,从各评论中各句子所包含全部词语的特征中提取各评论中各句子的特征;基于自注意力机制,从各评论所包含的所述多个句子的特征中提取各评论的特征;基于自注意力机制,从所述多个评论的特征中提取所述评论文本的特征;根据所述评论文本的特征,生成所述目标文档的评级结果。基于该方法和装置,可以充分捕捉目标文档的评论文本所包含的深层次语义信息,进而自动给出针对目标文档的评级结果。
-
公开(公告)号:CN111932109A
公开(公告)日:2020-11-13
申请号:CN202010784889.2
申请日:2020-08-06
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06Q10/06 , G06F16/735 , G06F16/951 , G06Q50/00
Abstract: 本发明涉及一种面向移动短视频应用的用户影响力评价系统,属于数据挖掘技术领域。本方法充分考虑了移动短视频应用域内数据和多元化的域外新媒体平台数据,分别采集移动短视频应用域内的用户基本信息、短视频信息以及域外平台关联账号的粉丝数信息等,设计评估算法分别计算基于短视频质量的域内影响力值和基于传播潜力的域外影响力值,通过一定的权重合成最终的用户影响力值。所述方法对已有的单一平台数据来源的评价方法作出改进,考虑用户的跨平台传播潜力,以适应新媒体平台“矩阵式”传播的新形势,提高对移动短视频用户影响力评价的全面性和有效性,实现评价系统的自动化运行和实时更新。
-
公开(公告)号:CN110263319A
公开(公告)日:2019-09-20
申请号:CN201910216192.2
申请日:2019-03-21
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明涉及一种基于网页文本的学者观点抽取方法,包括学者网页信息采集、文本数据预处理、观点抽取分析、观点摘要生成4个部分;学者信息抽取部分负责从互联网中获取给定学者相关的网页文本数据;文本数据预处理部分负责对原始网页文本数据进行清洗、语句分割、句法树分析、人名识别;观点抽取分析部分负责抽取出观点句,分析观点句的情感倾向和情感极性强度值。观点摘要生成部分负责将同一网页中的学者的所有观点语句进行总结,形成一个观点摘要段落。本发明综合利用了网络信息采集、数据挖掘、情感分析、自然语言处理等技术,从网络中自动提取出学者发表的观点及情感倾向,并生成观点摘要,有了解学者的社会活动和影响有重要意义。
-
公开(公告)号:CN110096575A
公开(公告)日:2019-08-06
申请号:CN201910375599.X
申请日:2019-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/33 , G06F16/958 , G16H10/20 , G16H20/70
Abstract: 本发明公开了一种面向微博用户的心理画像方法,包括:步骤一、在微博平台上选取样本用户,根据设定的心理学量表,利用调查问卷法获取样本用户的人格特征得分;步骤二、根据所述样本用户在微博平台上的文本信息,获取样本用户的文本表征,根据所述样本用户的行为信息,获取样本用户的行为表征;步骤三、根据样本用户的人格特征得分与文本表征和行为表征的对应关系,构建人格特征预测模型;步骤四、获取待测用户的文本表征和行为表征,根据人格特征预测模型,获得待测用户的人格特征。本发明能够实现对微博用户的人格特质的分析,为微博用户的心理画像提供技术支持。
-
公开(公告)号:CN109992645A
公开(公告)日:2019-07-09
申请号:CN201910250572.8
申请日:2019-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 拓尔思信息技术股份有限公司
Abstract: 本发明公开了一种基于文本数据的资料管理系统及方法,属于信息管理系统领域。资料管理系统包括数据上传模块,数据存储模块,数据解析模块,数据检索模块,数据可视化模块,工具箱和管理台。所述方法首先将本地文件利用数据上传模块上传至数据存储模块,然后数据解析模块对上传文件进行解析处理,得到上传文件的属性并进行存储。将解析后的资料内容及附件分别存储在数据存储模块中的全文索引搜索引擎数据库和关系型数据库中。最后采用相似性判断技术,利用数据检索模块对存储到数据库中的资料进行检索;利用数据可视化模块对所有资料内容按分类进行展示、文档操作功能和各种可视化展示。本发明提高了工作效率,提升了对战略研究素材的管理能力。
-
公开(公告)号:CN119807424A
公开(公告)日:2025-04-11
申请号:CN202411929873.0
申请日:2024-12-25
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/353 , G06N3/0455 , G06F18/22
Abstract: 本发明提出一种基于大语言模型的自适应文本分类方法和装置,包括:根据文本分类任务的需求,制定文本类别集合,并为该文本类别集合中各个文本类别创建多个示例样本;根据该文本分类任务的定义,制定用于文本分类的提示模板;获取待分类文本,选择该待分类文本的示例样本,作为样例数据;根据该提示模板,组装文本类别和该样例数据,得到提示文本;将该提示文本输入到大语言模型中,得到该大语言模型的输出结果;解析该输出结果,得到该待分类文本的文本类别。
-
公开(公告)号:CN119106199A
公开(公告)日:2024-12-10
申请号:CN202310657378.8
申请日:2023-06-05
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06F16/906 , G06F16/904 , G06Q50/00
Abstract: 本发明提出一种面向社交媒体的迭代式线索发现方法和系统。包括融合文本、结构和互动信息的线索主体重要度评分方法。通过对候选账号的文本内容、社交网络结构和互动信息分别进行建模,分别得到内容、结构和互动三个维度的重要度评分,再对多个维度的评分进行加权,得到最终的线索主体重要度评分。选取分数最高的作为线索发现结果。该方法及系统可以综合利用社交媒体平台中的内容、结构以及互动信息对线索主体进行评分,提升线索主体识别的准确率。
-
公开(公告)号:CN113220964B
公开(公告)日:2024-03-22
申请号:CN202110357064.7
申请日:2021-04-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/951 , G06F16/9032 , G06F16/955 , G06F40/242 , G06F40/284 , G06N3/045 , G06N3/0464 , G06N3/09 , G06Q50/00
Abstract: 本发明属于网络信息以及自然语言处理技术领域,特别涉及一种基于网信领域短文本的观点挖掘方法。本方法包括网信领域相关的数据获取与预处理模块、基于短文本的特征提取模块、短文本属性推断模块、观点挖掘结果输出模块。本发明方法提出了基于网信领域的短文本获取与数据清洗模型,建立了面向社交网络短文本的文本特征提取模型,设计了基于网信领域的社交网络短文本的属性推断模型,综合考虑了文本关键词抽取和摘要生成,提出对应的观点挖掘输出模型,最终基于实际采集的网络安全法相关短文本数据实现输出及可视化的展示。本发明极大地减少了人工收集、分析与网信领域相关的短文本的时间成本,能够有效的为网信领域相关专业人士提供观点挖掘结果。
-
-
-
-
-
-
-
-
-