一种基于互补语料的短文本观点挖掘方法

    公开(公告)号:CN106227768B

    公开(公告)日:2019-09-03

    申请号:CN201610559782.1

    申请日:2016-07-15

    Abstract: 本发明公开了一种基于互补语料的短文本观点挖掘方法,是基于属性的观点挖掘;具体为:首先,从某段微博语料中选取训练语料,进行分词处理,词性标注和筛选;根据观点词将训练语料进行属性词的标注;并使用词性标注做为特征训练最大熵模型;然后,针对某个事件的微博语料和新闻语料,构建跨语料的话题模型,并结合最大熵模型,分析该事件所属的话题并提取相应的属性词分布和观点词分布;最后,针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词,利用情感分类器进行极性分析。本发明适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。

    一种针对千万级规模新闻评论的观点挖掘方法

    公开(公告)号:CN104778209B

    公开(公告)日:2018-04-27

    申请号:CN201510111752.X

    申请日:2015-03-13

    Abstract: 本发明公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下:1)、统计千万级规模新闻评论的数量;2)、判断该数量是否大于或等于阈值K,如果是不予处理,否则进入步骤三;3)、利用中文分词工具,对数量小于阈值K的新闻标题和评论进行分词,进行词性标注;4)、根据分词结果对新闻评论聚类,得到类别标签;5)、对新闻评论进行关键词对提取;6)、统计新闻评论的比例和混杂度;7)、根据关键词对筛选并提取代表性文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。

    一种基于链接网络的用户领域识别方法及其装置

    公开(公告)号:CN103761246B

    公开(公告)日:2017-02-08

    申请号:CN201310705515.7

    申请日:2013-12-19

    Abstract: 本发明提出一种基于链接网络的用户领域识别方法及其装置,属于数据发掘及复杂网络领域。装置包括数据收集与预处理模块,领域原型用户集合构建模块和用户领域计算模块。方法包括:步骤1,手工采集初始种子用户;步骤2,收集种子用户的关注用户;步骤3,构建链接网络,计算各关注用户对于各领域的隶属度;步骤4,按隶属度大小将用户排序;步骤5,为各领域构建领域原型用户集合;步骤6,收集待分类用户的关注用户;步骤7,计算待分类用户对于各领域的隶属度;步骤8,将领域隶属度大小排序;步骤9,加领域标签。本发明适用于多种社交网络平台,能够克服短文本的缺点,特别适合用户建模,个性化信息搜索和推荐等领域。

    一种基于链接网络的用户领域识别方法及其装置

    公开(公告)号:CN103761246A

    公开(公告)日:2014-04-30

    申请号:CN201310705515.7

    申请日:2013-12-19

    CPC classification number: G06F17/3089 G06F17/30705

    Abstract: 本发明提出一种基于链接网络的用户领域识别方法及其装置,属于数据发掘及复杂网络领域。装置包括数据收集与预处理模块,领域原型用户集合构建模块和用户领域计算模块。方法包括:步骤1,手工采集初始种子用户;步骤2,收集种子用户的关注用户;步骤3,构建链接网络,计算各关注用户对于各领域的隶属度;步骤4,按隶属度大小将用户排序;步骤5,为各领域构建领域原型用户集合;步骤6,收集待分类用户的关注用户;步骤7,计算待分类用户对于各领域的隶属度;步骤8,将领域隶属度大小排序;步骤9,加领域标签。本发明适用于多种社交网络平台,能够克服短文本的缺点,特别适合用户建模,个性化信息搜索和推荐等领域。

    一种利用表情符号对微博进行情感倾向分类的方法

    公开(公告)号:CN103761239A

    公开(公告)日:2014-04-30

    申请号:CN201310664725.6

    申请日:2013-12-09

    CPC classification number: G06F17/3089 G06F17/3071

    Abstract: 本发明公开了一种根据表情符号对微博进行情感倾向分类的方法,包括:创建中性情感集、消极情感集和积极情感集;利用中性情感集、消极情感集和积极情感集,建立中性情感贝叶斯分类器;利用由消极情感集和积极情感集,建立极性情贝叶斯情感分类器;利用中性情感贝叶斯分类器和极性情感贝叶斯分类器对待测微博进行情感分类。本发明通过建立一个两阶段分类,即建立中性情感分类器,把中性情感的微博剔除,建立极性情感分类器,将有极性情感的微博分为积极情感和消极情感,该分类器分类速度快、占用空间小且鲁棒,且本发明能通过微博准确的了解到人们对当前的热门话题或事件的态度和网民的情绪,对社会科研和调查有着重要的帮助。

    基于无监督学习的诈骗呼叫序列检测方法

    公开(公告)号:CN110059889B

    公开(公告)日:2021-05-28

    申请号:CN201910344174.2

    申请日:2019-04-26

    Abstract: 本发明提供了基于无监督学习的诈骗呼叫序列检测方法,包括:构造主叫呼叫序列和呼叫二部图;在呼叫二部图中进行随机游走过程,推断各主叫号码对应节点的低维嵌入表示向量;获取各被叫号码的唯一标识,以主叫号码对应节点的低维嵌入表示向量以及第M个被叫号码对应的唯一标识为神经网络的输入,以第M+1个被叫号码对应的唯一标识为输出,训练获得神经网络预测模型;获取待检测主叫呼叫序列中主叫号码对应节点的低维嵌入表示向量以及各被叫号码对应的唯一标识,并输入所述神经网络预测模型,若得到的预测唯一标识与实际唯一标识的误差大于设定阈值,则判断主叫号码为诈骗号码。本发明中提出的方法容易实现并行化计算,可以实现较高的检测效率。

    一种基于异质数据的人物相似度刻画方法

    公开(公告)号:CN107577782B

    公开(公告)日:2021-04-30

    申请号:CN201710827978.9

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于异质数据的人物相似度刻画方法,属于数据挖掘领域。本发明首先搜集用户的微博文本,获取用户之间的关注关系以及各用户的基本信息,针对不同类型数据的特点个性化选择处理方式,并对于微博文本采用Doc2vec模型,结合上下文信息将文本表示成向量,再根据定义的相似度函数衡量相似度,最后将不同维度得到的矩阵进行融合,刻画用户最终的相似度。本发明引入了多种社交网络信息,包括社交关系数据、用户属性数据和用户文本数据等,通过对不同类型的信息加以综合考虑,以得到更全面的人物相似度刻画方法;同时本发明提供了对于多种数据的处理和计算方案,利用完整的数据和加权融合方法,个性化计算不同偏好的人物相似度。

Patent Agency Ranking