一种基于热点事件的舆情知识图谱构建方法

    公开(公告)号:CN107633044A

    公开(公告)日:2018-01-26

    申请号:CN201710827984.4

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于热点事件的舆情知识图谱构建方法,属于自然语言处理领域;首先实时获取微博文本,对每个微博文本进行处理,构建文本簇,计算每个文本簇所属的话题类别,按类别识别每个簇中的热点事件,统计每个热点事件的多维属性;识别参与热点事件讨论的重要人物和机构,并获取重要人物和机构的多维属性;最后构建事件、人物、机构的多维属性体系及关系类型,以事件、人物、机构为实体,事件、人物、机构之间的关系为关联,构建舆情知识图谱。本发明能够从多个维度对热点事件、人物、机构进行刻画,实现对热点事件、人物、机构的全方位解析;并根据实际需求,设置不同话题类别的权重,实现不同话题的舆情知识图谱构建。

    一种基于微博文本的人物性格刻画方法

    公开(公告)号:CN106202047A

    公开(公告)日:2016-12-07

    申请号:CN201610559542.1

    申请日:2016-07-15

    Abstract: 本发明公开了一种基于微博文本的人物性格刻画方法,属于数据挖掘领域;具体包括:首先,针对某个用户,对该用户某段时间内发的每条微博文本标注情绪标签,统计该用户每天冲动类以及抑郁类情绪的主导天数,从情绪特征角度对用户进行标记;然后,对该用户的所有微博文本进行关注话题分类,并选择该用户的关注话题;判断该用户的关注话题是否包括政治类和民生类,如果有,利用批判性词典对该用户进行语言特征刻画;否则,不做任何处理;最后、融合该用户的情绪特征和语言特征刻画该用户的性格,得到性格标签。优点在于:适用于对微博中人物性格特征刻画和分析,在舆情监控、人物属性刻画和信息传播扩散等领域有重要的应用价值。

    一种利用表情符号对微博进行情感倾向分类的方法

    公开(公告)号:CN103761239B

    公开(公告)日:2016-10-26

    申请号:CN201310664725.6

    申请日:2013-12-09

    Abstract: 本发明公开了一种根据表情符号对微博进行情感倾向分类的方法,包括:创建中性情感集、消极情感集和积极情感集;利用中性情感集、消极情感集和积极情感集,建立中性情感贝叶斯分类器;利用由消极情感集和积极情感集,建立极性情贝叶斯情感分类器;利用中性情感贝叶斯分类器和极性情感贝叶斯分类器对待测微博进行情感分类。本发明通过建立一个两阶段分类,即建立中性情感分类器,把中性情感的微博剔除,建立极性情感分类器,将有极性情感的微博分为积极情感和消极情感,该分类器分类速度快、占用空间小且鲁棒,且本发明能通过微博准确的了解到人们对当前的热门话题或事件的态度和网民的情绪,对社会科研和调查有着重要的帮助。

    一种计算微博用户影响力的方法

    公开(公告)号:CN105205146A

    公开(公告)日:2015-12-30

    申请号:CN201510600289.5

    申请日:2015-09-18

    CPC classification number: G06F17/3089

    Abstract: 本发明公开了一种计算微博用户影响力的方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、服务器将微博流数据平均分发到多个端口;步骤三、对流数据进行特征提取和并行计算;步骤四、将特征存储;步骤五、过滤不关心用户;步骤六、计算用户影响力;步骤七、存储每日每个用户的影响力。优点在于:该影响力的指标增加了平均数、最高数和爆发度,平均数要求用户发布的每条微博的平均影响力都比较高,避免出现微博数大造成转发量或评论量大,最高数和爆发度分别刻画影响力传播的范围和速度,因此,新增加的指标克服以往指标中存在单一总数不能完整刻画用户影响力的缺陷,能够更深入的解释用户影响力高的原因。

    一种针对千万级规模新闻评论的观点挖掘方法

    公开(公告)号:CN104778209A

    公开(公告)日:2015-07-15

    申请号:CN201510111752.X

    申请日:2015-03-13

    Abstract: 本发明公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下:1)、统计千万级规模新闻评论的数量;2)、判断该数量是否大于或等于阈值K,如果是不予处理,否则进入步骤三;3)、利用中文分词工具,对数量小于阈值K的新闻标题和评论进行分词,进行词性标注;4)、根据分词结果对新闻评论聚类,得到类别标签;5)、对新闻评论进行关键词对提取;6)、统计新闻评论的比例和混杂度;7)、根据关键词对筛选并提取代表性文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。

    基于层次判别树的多标签科研论文的分类方法

    公开(公告)号:CN110781297B

    公开(公告)日:2022-06-21

    申请号:CN201910881086.6

    申请日:2019-09-18

    Abstract: 本发明公开了一种基于层次判别树的多标签科研论文的分类方法,包括:步骤一、获取标签已知的论文和标签,提取标签的特征词语集合,构建二元判别模型;步骤二、将标签更新为二元判别模型,得层次判别树模型;步骤三、获取标签未知论文的文本表征,输入到层次判别树模型中根节点的所有二元判别模型中,计算具有该节点对应标签的概率,若大于阈值,则输出该根节点对应的标签;输入至该标签对应的节点的子节点的所有二元判别模型中,计算具有该节点代表标签的概率,若大于阈值,则输出该子节点对应的标签,逐级判断,直至叶节点;输出的所有标签即为该论文的标签。本发明具有充分挖掘论文的特征词语,快速、准确对论文进行层次分类的有益效果。

    基于层次判别树的多标签科研论文的分类方法

    公开(公告)号:CN110781297A

    公开(公告)日:2020-02-11

    申请号:CN201910881086.6

    申请日:2019-09-18

    Abstract: 本发明公开了一种基于层次判别树的多标签科研论文的分类方法,包括:步骤一、获取标签已知的论文和标签,提取标签的特征词语集合,构建二元判别模型;步骤二、将标签更新为二元判别模型,得层次判别树模型;步骤三、获取标签未知论文的文本表征,输入到层次判别树模型中根节点的所有二元判别模型中,计算具有该节点对应标签的概率,若大于阈值,则输出该根节点对应的标签;输入至该标签对应的节点的子节点的所有二元判别模型中,计算具有该节点代表标签的概率,若大于阈值,则输出该子节点对应的标签,逐级判断,直至叶节点;输出的所有标签即为该论文的标签。本发明具有充分挖掘论文的特征词语,快速、准确对论文进行层次分类的有益效果。

    一种基于协同网络表示学习的电信异常检测方法

    公开(公告)号:CN109474756A

    公开(公告)日:2019-03-15

    申请号:CN201811367747.5

    申请日:2018-11-16

    CPC classification number: H04M3/2281 H04W12/12

    Abstract: 本发明公开了一种基于协同网络表示学习的电信异常检测方法,属于数据挖掘与机器学习领域。首先训练xgboost分类器,测试每条CDR数据的欺诈类别概率构成待检测的信令数据集。提取主被叫用户构成通联二部图P,根据评分从信令数据集中选取疑似欺诈的主叫节点生成种子节点集合Z,并将存在共同被叫邻居的任意两个主叫添加到协同网络集合G。通联二部图P扩展出待选的被叫节点集合B,并移除不满足条件的被叫用户,保留下来的被叫节点更新到集合B'中;扩展并更新种子节点集合Z',去重合并更新协同网络G',降维得到嵌入向量进行建模预测,取异常得分最大的N个作为检测结果输出。本发明保证了生成的协同网络的质量,提高计算速度,可以适应不同的数据特点。

    一种基于异质数据的人物相似度刻画方法

    公开(公告)号:CN107577782A

    公开(公告)日:2018-01-12

    申请号:CN201710827978.9

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于异质数据的人物相似度刻画方法,属于数据挖掘领域。本发明首先搜集用户的微博文本,获取用户之间的关注关系以及各用户的基本信息,针对不同类型数据的特点个性化选择处理方式,并对于微博文本采用Doc2vec模型,结合上下文信息将文本表示成向量,再根据定义的相似度函数衡量相似度,最后将不同维度得到的矩阵进行融合,刻画用户最终的相似度。本发明引入了多种社交网络信息,包括社交关系数据、用户属性数据和用户文本数据等,通过对不同类型的信息加以综合考虑,以得到更全面的人物相似度刻画方法;同时本发明提供了对于多种数据的处理和计算方案,利用完整的数据和加权融合方法,个性化计算不同偏好的人物相似度。

    一种基于互补语料的短文本观点挖掘方法

    公开(公告)号:CN106227768A

    公开(公告)日:2016-12-14

    申请号:CN201610559782.1

    申请日:2016-07-15

    Abstract: 本发明公开了一种基于互补语料的短文本观点挖掘方法,是基于属性的观点挖掘;具体为:首先,从某段微博语料中选取训练语料,进行分词处理,词性标注和筛选;根据观点词将训练语料进行属性词的标注;并使用词性标注做为特征训练最大熵模型;然后,针对某个事件的微博语料和新闻语料,构建跨语料的话题模型,并结合最大熵模型,分析该事件所属的话题并提取相应的属性词分布和观点词分布;最后,针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词,利用情感分类器进行极性分析。本发明适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。

Patent Agency Ranking