-
公开(公告)号:CN110414680A
公开(公告)日:2019-11-05
申请号:CN201910667447.7
申请日:2019-07-23
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了基于众包标注的知识加工系统,包括:粗知识管理模块,其用于导入待标注知识;任务发布模块,其用于生成标注任务并发布,所述标注任务包括待标注知识、标注员、审核员和标注字段;知识标注模块,其用于对所述标注任务进行标注处理,并将已处理的标注任务生成审核任务;知识审核模块,其用于对所述审核任务对应的标注结果进行审核处理。本发明采用众包标注的形式进行知识加工,加工过程辅以机器学习进行自动抽取,通过人机结合的知识加工过程,形成有效的综合知识库。
-
公开(公告)号:CN110287314A
公开(公告)日:2019-09-27
申请号:CN201910418900.0
申请日:2019-05-20
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明涉及一种基于无监督聚类的长文本可信度评估方法,包括:以已知长文本获取训练数据,提取该训练数据的训练特征以构建训练特征向量集,对该训练特征向量集进行无监督聚类,得到多个训练类心;以待评估长文本获取评估数据,提取该评估数据的评估特征向量;获取该评估特征向量相对该训练类心的评估值,并以该评估值得到该待评估长文本的可信度。本发明通过无监督聚类对长文本进行可信度评估,在实施过程中不需要标注数据,节省了人力、物力与时间,避免了数据中标签稀疏带来的困扰;提取了长文本的文本特征,对于可信度评估任务更加适用,使用该模型得到的文本的可信度更具有可解释性,同时在平台之间可以迁移。
-
公开(公告)号:CN109800431A
公开(公告)日:2019-05-24
申请号:CN201910062802.8
申请日:2019-01-23
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于计算机科学技术领域,尤其是涉及一种事件信息关键词提取方法、监控方法、及其系统和装置,旨在为了解决解决无监督方法提取关键词效果不稳定的问题。本发明提取方法对于获取的待监控的事件信息,基于多种关键词提取技术提取并优选一组相关性很强的关键词作为第一关键词组,而后基于关键词在时域的发展演化选出最新的热点词汇作为第二关键词组,再后对同一时间段内的同一事件的不同报道进行聚类,提取各聚类的关键词合并后作为第三关键字组,最后合并三个关键词组并选定最终的关键词组合。本发明提高了系统的稳定性,同时兼顾了时域及同一事件不同侧面的发展方向。
-
公开(公告)号:CN105893481B
公开(公告)日:2019-01-29
申请号:CN201610187149.4
申请日:2016-03-29
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种基于马尔可夫聚类的实体间关系消解方法,包括:计算K个实体中任意两个实体之间的语义相似度;根据实体间的语义相似度构造赋权图G;构造状态转移矩阵M;在状态转移矩阵M上执行马尔科夫聚类算法,得到多个关系簇;其中,每个簇代表一系列语义相近似的实体。本发明提供的基于马尔可夫聚类的实体间关系消解方法具有以下优点:提出了融合词法和语义的相似度计算方法,然后给出了基于马尔科夫图聚类的关系聚类方法。该方法与层次聚类方法相比,聚类纯度指标有了一定提高,还具有计算过程简单快速的优点。
-
公开(公告)号:CN107577782A
公开(公告)日:2018-01-12
申请号:CN201710827978.9
申请日:2017-09-14
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种基于异质数据的人物相似度刻画方法,属于数据挖掘领域。本发明首先搜集用户的微博文本,获取用户之间的关注关系以及各用户的基本信息,针对不同类型数据的特点个性化选择处理方式,并对于微博文本采用Doc2vec模型,结合上下文信息将文本表示成向量,再根据定义的相似度函数衡量相似度,最后将不同维度得到的矩阵进行融合,刻画用户最终的相似度。本发明引入了多种社交网络信息,包括社交关系数据、用户属性数据和用户文本数据等,通过对不同类型的信息加以综合考虑,以得到更全面的人物相似度刻画方法;同时本发明提供了对于多种数据的处理和计算方案,利用完整的数据和加权融合方法,个性化计算不同偏好的人物相似度。
-
公开(公告)号:CN107168986A
公开(公告)日:2017-09-15
申请号:CN201710178505.0
申请日:2017-03-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种新闻APP应用活跃度的分析方法,包括以下步骤:步骤1、采集不少于2个新闻APP的相关数据;步骤2、将步骤1采集的数据代入活跃度计算模型进行分析计算;步骤3、将步骤2中得到的计算结果进行排列,即得所采集新闻APP的活跃度排行。其能够综合客观的判断一个新闻APP的实际活跃度,并对多个新闻APP的活跃度进行分析和排行,使用户方便的选择适合自身的新闻APP。
-
公开(公告)号:CN107153908A
公开(公告)日:2017-09-12
申请号:CN201710186473.9
申请日:2017-03-24
Applicant: 国家计算机网络与信息安全管理中心
CPC classification number: G06Q10/06393 , G06F17/3089 , G06Q50/01
Abstract: 本发明公开了一种移动新闻App影响力评级方法,步骤包括:1)采集新闻APP上的数据,并将数据聚类入库,所述数据包括:所属网站、评论次数、转载次数、日均访问量(PV)和访问量(UV);2)计算新闻影响力因子;3)利用PageRank算法计算新闻App转载率;4)通过查询回复率参考表得出新闻App回复率;5)利用计算模型计算新闻APP得分,根据分数将新闻App排序。本发明以分数的形式展现给用户,更加直白的显示出不同的新闻App的影响力。这个数值就是新闻App的评价分,分数越高的新闻App,越能满足用户的需求,可以及时的为大众提供实时新闻。
-
公开(公告)号:CN103678565B
公开(公告)日:2017-02-15
申请号:CN201310659722.3
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 一种基于自引导方式的领域自适应句子对齐系统,包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块。首先,针对不同的网页,对于料进行提取和相应做预处理;使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐;同时,对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明提高了句子对齐质量,具有领域适应性强的优点。
-
公开(公告)号:CN103678564B
公开(公告)日:2017-02-15
申请号:CN201310659651.7
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F17/30
Abstract: 一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。
-
公开(公告)号:CN106126606A
公开(公告)日:2016-11-16
申请号:CN201610453319.9
申请日:2016-06-21
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种短文本新词发现方法。本方法为:1)从当前短文本中提取一字符串s,计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s);2)取左邻熵HL(s)和右邻熵HL(s)的较小值,记为BE(s);3)计算该字符串s的成词概率Prword(s),根据Prword(s)的值确定词s是否为新词。本发明大大提高了新词发现的准确率。
-
-
-
-
-
-
-
-
-