-
公开(公告)号:CN103810283A
公开(公告)日:2014-05-21
申请号:CN201410058585.2
申请日:2014-02-20
Applicant: 东莞中国科学院云计算产业技术创新与育成中心 , 中国科学院自动化研究所
IPC: G06F17/30
CPC classification number: G06F17/3089
Abstract: 本发明涉及数据采集技术领域,尤其是一种基于用户关联关系的微博数据采集方法。本发明采用网络爬虫的方式对微博平台上包含特定关键词的微博信息进行采集,在采集的过程中以用户之间的关联关系作为微博爬虫的链接,首先根据指定的关键词获取微博爬虫的种子用户,然后通过抓取网页的方式获取用户的微博页面,采集其中包含关键词的微博信息,选取出具有潜力的用户,并同时采集有潜力用户的关联关系以获取微博爬虫的下一级链接,从而实现微博信息的自动搜索与采集。本发明解决了根据关键词在微博平台上自动采集包含该关键词的微博等问题,可用于商务智能、社情舆情、决策评估等领域对特定微博内容的获取。
-
公开(公告)号:CN110059181A
公开(公告)日:2019-07-26
申请号:CN201910202727.0
申请日:2019-03-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35
Abstract: 本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。
-
公开(公告)号:CN105786991B
公开(公告)日:2019-03-15
申请号:CN201610089962.8
申请日:2016-02-18
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种结合用户情感表达方式的中文情感新词识别方法和系统。其中,该方法包括获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词。通过本发明实施例解决了如何提高情感新词识别的精度和灵活度的技术问题。
-
公开(公告)号:CN108563686A
公开(公告)日:2018-09-21
申请号:CN201810208801.5
申请日:2018-03-14
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及计算机技术领域,具体提供了一种基于混合神经网络的社交网络谣言识别方法及系统,旨在解决如何在考虑谣言转发评论信息的情况下,准确识别社交网络中谣言的技术问题。为此目的,本发明中社交网络谣言识别方法,首先利用三种不同的神经网络分别获取用户特征向量、原文特征向量和传播信息特征向量,然后将用户特征向量、原文特征向量和传播信息特征向量融合为新的特征向量,最后利用第四种神经网络对融合后的特征向量进行谣言识别。基于上述步骤,能够快速且准确地检测到社交网络中的谣言。同时,本发明中的系统能够执行并实现上述步骤。
-
公开(公告)号:CN105740236A
公开(公告)日:2016-07-06
申请号:CN201610066957.5
申请日:2016-01-29
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F17/27
CPC classification number: G06F17/2715 , G06F17/2775
Abstract: 本发明公开了一种结合写作特征和序列特征的中文情感新词识别方法和系统。该方法对于输入文本子句,基于情感词的作者写作特征和情感词的序列特征将文本子句表示为各种特征(如:字、词性等)的序列。然后,针对特征表示的文本子句,利用线性链条件随机场模型输出与文本子句对应的情感词标签序列。其中,线性链条件随机场模型基于包含传统情感词的文本训练得到。接着,基于文本子句中字的序列和情感词标签序列,利用有限状态自动机识别文本子句中的情感词,形成情感词集合。最后,利用中文旧词词库对情感词集合进行过滤,将未出现在中文旧词词库中的情感词作为中文情感新词。通过本发明实施例解决了如何提高情感新词识别精度和召回率的技术问题。
-
公开(公告)号:CN105653538A
公开(公告)日:2016-06-08
申请号:CN201410642239.9
申请日:2014-11-13
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC: G06F17/30
Abstract: 一种数据挖掘的方法,包括以下步骤:获取各个用户的行为序列,所述行为序列中包含多条按照行为执行时间顺序排列的行为节点,所述行为节点由行为与行为执行时间组成;搜索所述行为序列中对应的提升值满足预设的长期提升条件的行为节点作为所述行为序列中的行为频率提升点,所述行为节点对应的提升值为所述行为序列中该行为节点后的行为发生频率与所述行为序列中该行为节点前的行为发生频率的比值;获取发生时间满足行为频率提升点相关的时间条件的对应用户发生的事件作为行为频率提升因素。上述方法可挖掘出准确的用户行为频率提升因素。此外,还提供一种数据挖掘的装置。
-
公开(公告)号:CN103440235A
公开(公告)日:2013-12-11
申请号:CN201310363414.6
申请日:2013-08-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种基于认知结构模型的文本情感类型识别方法及装置,该方法包括:对于输入的海量开源文本,基于通用语义词典和句法依存关系,采用统计方法自动构建情感维度词典;对所构建的情感维度词典进行求精,求精具体包括语义、情感倾向的不一致性处理和非情感词的过滤;基于求精后得到的高质量的情感维度词典,结合情感认知结构模型中情感维度值与情感类型的对应关系,得到相应的情感类型。本发明的上述方案设计思路、可解释性、使用灵活性及有效性上均明显优于已有方法,可用于商务智能、社情舆情、决策评估等领域面向文本的情感分析与识别。
-
-
-
-
-
-