-
公开(公告)号:CN106156150A
公开(公告)日:2016-11-23
申请号:CN201510175964.4
申请日:2015-04-14
Applicant: 北大方正集团有限公司 , 北京大学 , 国家计算机网络与信息安全管理中心 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种微博用户关联信息筛选方法及装置,用以解决现有技术中存在的数据稀疏的问题,以及推荐效果不理想,降低系统推荐效率的问题,该方法包括:首先确定当前用户的关联用户集合、特征向量、以及社区结构和主题;根据该每一个关联用户对应的特征向量中的每一个特征项和每一个社区结构对应的主题,得到用户主题分布;根据用户主题分布,筛选出当前用户的目标关联用户,这样,可以避免了推荐结果数据稀疏的问题,提高了系统的推荐效率,并得到与当前用户的兴趣爱好一致的关联用户。
-
公开(公告)号:CN103761239B
公开(公告)日:2016-10-26
申请号:CN201310664725.6
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种根据表情符号对微博进行情感倾向分类的方法,包括:创建中性情感集、消极情感集和积极情感集;利用中性情感集、消极情感集和积极情感集,建立中性情感贝叶斯分类器;利用由消极情感集和积极情感集,建立极性情贝叶斯情感分类器;利用中性情感贝叶斯分类器和极性情感贝叶斯分类器对待测微博进行情感分类。本发明通过建立一个两阶段分类,即建立中性情感分类器,把中性情感的微博剔除,建立极性情感分类器,将有极性情感的微博分为积极情感和消极情感,该分类器分类速度快、占用空间小且鲁棒,且本发明能通过微博准确的了解到人们对当前的热门话题或事件的态度和网民的情绪,对社会科研和调查有着重要的帮助。
-
公开(公告)号:CN105808525A
公开(公告)日:2016-07-27
申请号:CN201610186810.X
申请日:2016-03-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/27
CPC classification number: G06F17/271 , G06F17/2705 , G06F17/274 , G06F17/2785
Abstract: 本发明提供一种基于相似概念对的领域概念上下位关系抽取方法,包括以下步骤:步骤1,领域概念集合由若干个领域概念组成;基于概念聚类的方法从领域概念集合中抽取相似的领域概念;步骤2,获得可能存在上下位关系的候选概念对,然后根据步骤1获取的相似概念产生相似候选概念对;步骤3,利用知识库获取部分训练数据,并通过相似候选概念对共同表征关系特征,实现基于多句特征的关系抽取,从而抽取到领域概念上下位关系。优点为:本发明可以突破语料规模的限制,利用多句特征抽取领域概念的上下位关系,可提升领域概念上下位关系抽取的准确率。
-
公开(公告)号:CN104899156A
公开(公告)日:2015-09-09
申请号:CN201510229346.3
申请日:2015-05-07
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F12/06
Abstract: 本发明公开了一种面向大规模社交网络的图数据存储及查询方法,本发明数据存储管理器对收到的图数据采用Key-Value方式存储,以图数据的顶点ID为Key,以顶点邻域为Value;对每一顶点邻域的数据存储:将与该顶点邻域相连的多条边以时间戳有序存储到固定大小的内存块中,并构成双向链表,将该顶点的属性信息和索引信息存储到一数据结构中。当数据存储管理器收到访问顶点v的访问请求时,数据存储管理器将该顶点v及其k阶邻域传输给请求者;请求者将返回数据缓存在本地,下次查询时,首先检查本地的缓存,如果不存在查询的顶点,则将访问请求发送给所述数据存储管理器。本发明能满足动态更新、适合处理数据稀疏的场景和随机访问。
-
公开(公告)号:CN104778209A
公开(公告)日:2015-07-15
申请号:CN201510111752.X
申请日:2015-03-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下:1)、统计千万级规模新闻评论的数量;2)、判断该数量是否大于或等于阈值K,如果是不予处理,否则进入步骤三;3)、利用中文分词工具,对数量小于阈值K的新闻标题和评论进行分词,进行词性标注;4)、根据分词结果对新闻评论聚类,得到类别标签;5)、对新闻评论进行关键词对提取;6)、统计新闻评论的比例和混杂度;7)、根据关键词对筛选并提取代表性文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。
-
公开(公告)号:CN103530402A
公开(公告)日:2014-01-22
申请号:CN201310502924.7
申请日:2013-10-23
Applicant: 北京航空航天大学
IPC: G06F17/30
CPC classification number: G06F17/3089
Abstract: 本发明公开了一种基于改进的PageRank的微博关键用户识别方法,包括输入微博信息数据,其中包括n条微博;对n条微博文本进行分词处理;根据分词结果建立倒排索引结构,便于根据指定关键词检索;根据检索到的相关微博提取其转发层级信息,构建加权有向图即转发网络G;将转发网络G划分为若干个极大连通子图Gi;利用并行化计算技术在每个子网络Gi应用PageRank算法;将各个子网络的计算结果融合生成整个网络生成整个网络G的排序结果;将排序结果选择前m条作为关键用户输出。本发明采用并行计算技术,在大数据环境下针对微博平台的动态转发网络进行排序计算,从而识别信息传播过程中的关键用户,应用于网络舆情分析等领域。
-
-
-
-
-