-
公开(公告)号:CN107784387A
公开(公告)日:2018-03-09
申请号:CN201710843010.5
申请日:2017-09-18
Applicant: 国家计算机网络与信息安全管理中心
CPC classification number: G06Q10/04 , G06F17/30675 , G06Q50/01
Abstract: 本发明公开了一种微博事件信息传播的连续动态预测方法,属于数据挖掘领域。针对新浪微博,在目前给定传播信息的基础上,试图预测下一阶段的微博总数量;按小时划分事件传播,利用事件从发生到当前时间段内传播特征,如微博量、参与人数、微博情绪等,基于GBDT模型预测下一小时内事件微博传播的总数。本发明预测模型中最优时间段长度和微博特征组合,是在全面衡量各特征的贡献度和相关性的基础上筛选出来的,不仅能够有效提高模型预测精度,平均模型精度超过70%,还能减小计算复杂性,避免无用计算,有效支持针对事件的预警和干预措施。
-
公开(公告)号:CN105893481A
公开(公告)日:2016-08-24
申请号:CN201610187149.4
申请日:2016-03-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供一种基于马尔可夫聚类的实体间关系消解方法,包括:计算K个实体中任意两个实体之间的语义相似度;根据实体间的语义相似度构造赋权图G;构造状态转移矩阵M;在状态转移矩阵M上执行马尔科夫聚类算法,得到多个关系簇;其中,每个簇代表一系列语义相近似的实体。本发明提供的基于马尔可夫聚类的实体间关系消解方法具有以下优点:提出了融合词法和语义的相似度计算方法,然后给出了基于马尔科夫图聚类的关系聚类方法。该方法与层次聚类方法相比,聚类纯度指标有了一定提高,还具有计算过程简单快速的优点。
-
公开(公告)号:CN113255918B
公开(公告)日:2023-04-25
申请号:CN202110393843.2
申请日:2021-04-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06N5/04 , G06F16/36 , G06N5/022 , G06F18/22 , G06F40/126 , G06N3/0455 , G06N3/042
Abstract: 本发明公开了一种强化聚合知识指导的生成常识推理方法,包括:基于知识图谱构建概念推理图和分层概念扩展图;搭建强化聚合指导下基于概念推理图的知识图谱增强型编码器;搭建强化聚合指导下基于分层概念扩展图的知识图谱增强型解码器;训练包含知识图谱增强型编码器和知识图谱增强型解码器的生成常识推理模型;应用训练后的生成常识推理模型生成常识推理语句。本发明提供的方法可以有效避免因未考虑概念之间关系而导致生成语句不符合日常情景、逻辑不合理等一系列问题,通过引入强化聚合过程从知识图谱中筛选能提供丰富关系信息的附加概念描述,有效提升了模型对不可见概念集的概括。
-
公开(公告)号:CN111581956B
公开(公告)日:2022-09-13
申请号:CN202010269087.8
申请日:2020-04-08
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Inventor: 赵忠华 , 吴俊杰 , 赵志云 , 葛自发 , 孙小宁 , 张冰 , 王欣欣 , 李欣 , 袁钟怡 , 孙立远 , 付培国 , 王禄恒 , 左源 , 李丰志 , 李英汉 , 户中方
IPC: G06F40/279 , G06F40/216 , G06F40/242 , G06F40/126 , G06F16/335 , G06F16/35 , G06K9/62
Abstract: 本发明公开了一种基于BERT模型和K近邻的敏感信息识别方法,包括:步骤一、对文本进行预处理;步骤二、标注多条预处理文本为敏感信息和非敏感信息,步骤三、表征得到敏感信息的向量表征和非敏感信息的向量表征;步骤四、以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据,构建近似最邻近搜索图;步骤五、将待测文本的向量表征输入至近似最邻近搜索图,搜索得到近似最近邻的K个节点,判断节点属性及根据该条待测文本的敏感度权重,修正其敏感度值后,判断是否为敏感信息。本发明公开了一种基于BERT模型和K近邻的敏感信息识别系统。本发明具有提升文本质量,提升敏感信息识别的速度和精度的有益效果。
-
公开(公告)号:CN113761215A
公开(公告)日:2021-12-07
申请号:CN202110321491.X
申请日:2021-03-25
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
Inventor: 赵忠华 , 李建广 , 余智华 , 王禄恒 , 陈欣洁 , 赵志云 , 冯凯 , 葛自发 , 杜漫 , 孙小宁 , 穆庆伟 , 万欣欣 , 申双成 , 李欣 , 孙立远 , 付培国 , 王晴 , 杜宛真
IPC: G06F16/36 , G06F16/35 , G06F40/242 , G06F40/295
Abstract: 本发明公开了一种基于反馈自学习的动态字典库生成方法,包括以下步骤:S1、字典库定义;S2、基于字典库分类体系;S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型;S5、将S4步生成的预测数据回填到字典库。有益效果:该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。
-
公开(公告)号:CN113255360A
公开(公告)日:2021-08-13
申请号:CN202110418139.8
申请日:2021-04-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/30 , G06F40/284 , G06F40/126 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本发明实施例公开了基于层次化自注意力网络的文档评级方法和装置。该方法包括:获取目标文档的评论文本,其中,所述评论文本包含多个评论,各评论包含多个句子;提取各句子中各词语的特征;基于自注意力机制,从各评论中各句子所包含全部词语的特征中提取各评论中各句子的特征;基于自注意力机制,从各评论所包含的所述多个句子的特征中提取各评论的特征;基于自注意力机制,从所述多个评论的特征中提取所述评论文本的特征;根据所述评论文本的特征,生成所述目标文档的评级结果。基于该方法和装置,可以充分捕捉目标文档的评论文本所包含的深层次语义信息,进而自动给出针对目标文档的评级结果。
-
公开(公告)号:CN107066554B
公开(公告)日:2020-12-15
申请号:CN201710183767.6
申请日:2017-03-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F16/30
Abstract: 本发明公开了一种微博相关人物推荐方法,包括:步骤一、微博用户识别:解析当前用户所有博文中的多个关键字以及每个关键字的权重Wki;获取至少一篇相匹配博文,相匹配的博文具有所述多个关键字,获取各相匹配博文的微博主,再获取各微博主对多个关键字中各关键字的权重UWki;步骤二、相关用户过滤:从所获取的微博主中筛选掉已经被当前用户关注的微博主,从而获得至少一个相关用户;步骤三、用户相关性权重计算:依据相关性权重公式计算每个相关用户的相关性权重;步骤四、根据所述至少一个相关用户的相关性权重,将相关性权重排名在排序规定值之前的相关用户推荐给当前用户。本发明可以使用户更加方便直接地关注自己感兴趣的内容和微博人物。
-
公开(公告)号:CN106980692B
公开(公告)日:2020-12-08
申请号:CN201710213302.0
申请日:2017-04-01
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/9536 , G06Q50/00
Abstract: 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。
-
公开(公告)号:CN106126605B
公开(公告)日:2019-12-10
申请号:CN201610453205.4
申请日:2016-06-21
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明公开了一种基于用户画像的短文本分类方法。本方法为:1)基于用户发出的短文本数据生成对应用户的用户画像;其中,用户ui的用户画像为用户ui属于类别ci的值;2)采用分类器对该用户ui的短文本TS进行分类,得到该短文本TS所属类别的可能性F={f1,...,fi,...,fm};3)根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值,选出最大的类别结果作为该短文本TS的类别标签。本发明大大增加了分类的准确率。
-
公开(公告)号:CN110096575A
公开(公告)日:2019-08-06
申请号:CN201910375599.X
申请日:2019-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/33 , G06F16/958 , G16H10/20 , G16H20/70
Abstract: 本发明公开了一种面向微博用户的心理画像方法,包括:步骤一、在微博平台上选取样本用户,根据设定的心理学量表,利用调查问卷法获取样本用户的人格特征得分;步骤二、根据所述样本用户在微博平台上的文本信息,获取样本用户的文本表征,根据所述样本用户的行为信息,获取样本用户的行为表征;步骤三、根据样本用户的人格特征得分与文本表征和行为表征的对应关系,构建人格特征预测模型;步骤四、获取待测用户的文本表征和行为表征,根据人格特征预测模型,获得待测用户的人格特征。本发明能够实现对微博用户的人格特质的分析,为微博用户的心理画像提供技术支持。
-
-
-
-
-
-
-
-
-