一种基于社区结构的集体预测方法

    公开(公告)号:CN107545508A

    公开(公告)日:2018-01-05

    申请号:CN201610474035.8

    申请日:2016-06-24

    Abstract: 本发明提供了一种基于社区结构的集体预测方法,所述方法包括:步骤1)遍历网络V中的每个节点,利用社区模块度指标生成若干个社区,每个节点归属于其中一个社区;步骤2)利用网络V中已知标签的节点自身的特征向量和社区结构向量训练预测模型;步骤3)计算所有未知标签节点的自身特征向量和社区结构向量,输入预测模型获取所有未知标签节点的标签和概率;反复进行该步骤,直至所有未知标签节点的标签不再发生改变,输出所有未知标签节点的最终标签和概率。本发明的方法能够提高社区结构中节点标签的预测的正确率。

    一种事件类型识别方法及装置

    公开(公告)号:CN106095928A

    公开(公告)日:2016-11-09

    申请号:CN201610409465.1

    申请日:2016-06-12

    Abstract: 本发明公开了一种事件类型识别方法及装置。该方法包括以下步骤:对训练集中所有文本进行分词、提取词性处理后训练词向量空间模型,提取文本的特征,将文本表示为特征向量;对于训练集进行事件类型聚类,训练带有类型聚类正则化项的神经网络模型;对于测试样本同样进行分析、提取词性处理,并利用已经训练好的词向量模型,得到特征表示;利用类型聚类正则化项的神经网络模型进行事件类别识别。借助于本发明的技术方案,能够利用同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。

    一种网页主题的标注方法和装置

    公开(公告)号:CN104881458A

    公开(公告)日:2015-09-02

    申请号:CN201510266108.X

    申请日:2015-05-22

    CPC classification number: G06F16/374 G06F16/35

    Abstract: 本发明公开了一种网页主题的标注方法和装置。所述方法包括:基于网页的标题和正文,获得所述网页的主题特征向量;利用预先训练获得的分类器,对所述主题特征向量进行分类处理;判断是否存在所述主题特征向量所属的类型;若是,则将所述网页标注为所述主题特征向量所属的类型;若否,则将所述网页标记为待标注网页;进一步地,对多个待标注网页进行聚类处理;分析出每个聚类集合的类型;将待标注网页标注为其所属的聚类集合的类型。本发明采用有监督的分类方法和无监督的聚类方法级联的方式,自动的从网页中获取主题并标注网页,有效提高了网页主题标注的效率和准确性。

    一种微博团体的发现方法及装置

    公开(公告)号:CN104850647A

    公开(公告)日:2015-08-19

    申请号:CN201510284124.1

    申请日:2015-05-28

    CPC classification number: G06F16/951 G06Q50/01

    Abstract: 本发明公开了一种微博团体的发现方法及装置,其中,该方法包括:根据微博用户的元信息及微博内容,构建相互独立的特征信息词典;从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量;采用无监督学习方式从兴趣特征向量中确定用户团体信息。本发明实施例为不同种类的信息建立各自独立的特征信息词典,从用户一定时间段内更新的信息中分词,来与特征信息词典中的词语进行比对,进而确定用户的兴趣特征向量,再通过无监督学习方式来确定用户团体信息,通过此过程确定的用户团体信息是具有相同或相似兴趣爱好的团体,具有更准确的推广意义,传播力度大大提高,解决了现有问题。

    一种改进apriori的频繁有序项集挖掘方法

    公开(公告)号:CN117633092A

    公开(公告)日:2024-03-01

    申请号:CN202311358101.1

    申请日:2023-10-19

    Abstract: 一种改进apriori的频繁有序项集挖掘方法,包括:采取项为首、特征为尾拼接的方式生成新项集,以发现数据中频繁出现的连续有序项集,而不是无序的关联规则;在候选项筛选中,加入项预判断,减少对事务集的扫描次数;另外,还采用记录项事务集的方式避免了对全部数据集的频繁扫描,提高了算法的时间性能。该方法有效解决了Apriori算法无法用于发现频繁有序项集,以及候选集筛选过程中频繁扫描整个事务集带来的时间开销巨大的问题。

Patent Agency Ranking