一种基于数据挖掘的互联网产品调研系统

    公开(公告)号:CN103678564B

    公开(公告)日:2017-02-15

    申请号:CN201310659651.7

    申请日:2013-12-09

    Abstract: 一种基于数据挖掘的互联网产品调研系统,由6个模块组成:信息采集模块、信息预处理模块、产品概貌分析模块、情感分析模块、用户行为分析模块和数据展示模块。系统通过自动采集互联网上各类关于产品的信息,经过预处理之后,采用数据挖掘和自然语言处理技术进行综合分析,从而快速形成关于产品的概貌分析、产品各不同功能的市场口碑分析、不同产品对比分析、用户群体分析等不同侧面的分析结果,为产品分析、市场决策提供快速、坚实的支撑。本发明充分利用互联网信息资源优势,能够根据用户需求对产品进行调研,不但可以节约调研所需的人力物力,还能够及时反映跟踪市场动态。

    一种网络评论产生式摘要方法

    公开(公告)号:CN105912644A

    公开(公告)日:2016-08-31

    申请号:CN201610217911.9

    申请日:2016-04-08

    CPC classification number: G06F16/345 G06F17/2775

    Abstract: 本发明公开了一种网络评论产生式摘要方法。首先,基于标点符号对评论进行短语分割、分词并标记每个词语的词性,进而基于评论对象参数字典和句法模板过滤掉与评论对象无关的短语;然后,计算短语情感极性强度值,根据评论对象参数的所有短语的情感极性强度值对评论对象参数的重要性进行排序,选取最重要的一部分参数进行摘要生成;最后,针对选取的每个参数,选取一个对该参数最重要的一个评论短语,把选取的所有短语置入到设计好的摘要模板中以生成评论摘要。本发明综合利用了情感分析、词性分析等技术提取有效的用户评论信息,并根据设计好的模板生成摘要,对提高摘要的可读性和准确性有很大帮助。

    微博深度分类方法及系统
    14.
    发明公开

    公开(公告)号:CN105843957A

    公开(公告)日:2016-08-10

    申请号:CN201610236172.8

    申请日:2016-04-15

    Abstract: 本发明实施例提供一种微博深度分类方法及系统,该方法包括:将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率;将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理,并将归一化处理后的数据输入学习模型;根据所述学习模型的输出确定微博事件分类模型;根据所述微博事件分类模型对微博文本进行分类。本发明实施例提供的微博深度分类方法及系统,能够对微博文本进行深入的细化分类,提高微博文本的分类正确率。

    一种基于自动机的实体关系快速抽取方法

    公开(公告)号:CN105824801A

    公开(公告)日:2016-08-03

    申请号:CN201610150794.9

    申请日:2016-03-16

    CPC classification number: G06F17/2785 G06F16/288

    Abstract: 本发明提供一种基于自动机的实体关系快速抽取方法,包括以下步骤:步骤1,定制规则文件;步骤2,对规则文件中的各个规则进行文法检查,检测规则文件中的各个规则是否满足文法要求,如果满足,则执行步骤3;步骤3,对通过文法检查的所述规则文件中的各个规则进行语义解释;步骤4,将语义解释后的所述规则文件中的各个规则进行解析编译,完成规则向层叠有限状态自动机的转换,得到有限状态自动机;步骤5,使用所述有限状态自动机,对输入的文本数据进行实体属性以及实体关系的抽取,得到最终的实体属性以及实体关系。优点为:能够保证对开放域文本进行快速的实体关系与实体属性抽取。同时,对于特定领域的实体关系可以定制化的进行抽取。

    基于社交网络的用户群体消息传播异常分析方法及装置

    公开(公告)号:CN109145109B

    公开(公告)日:2022-06-03

    申请号:CN201710464424.7

    申请日:2017-06-19

    Abstract: 本发明涉及一种基于社交网络的用户群体消息传播异常分析方法和装置,包括:获取在线社交网络中用户群体的历史聊天记录,根据预先设定的时间跨度,获取历史聊天记录在时间跨度内用户群体中所有用户所发布的消息,作为消息集合;对于消息集合,根据预先设定的时间范围统计用户群体在每个时间范围内所发布的消息总数;基于时序相关性的特征提取法,对每个消息总数的特征进行提取,并将提取结果集合为样本集合;根据消息总数并采用聚类算法为样本集合对样本集合进行聚类,生成异常样本;根据异常样本判定其所在的用户群体存在消息传播异常。由此本发明能够应对数据涌发现象,同时算法直观简单,准确率更高,且本发明应用场景广泛。

    一种网络话题热度预测方法

    公开(公告)号:CN106557552B

    公开(公告)日:2020-08-21

    申请号:CN201610958001.6

    申请日:2016-10-27

    Abstract: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。

Patent Agency Ranking