基于动力学模型的网络突发事件检测方法及系统

    公开(公告)号:CN110704717A

    公开(公告)日:2020-01-17

    申请号:CN201910833905.X

    申请日:2019-09-04

    Abstract: 本发明提出一种基于动力学模型的网络突发事件检测方法及系统,包括:对指定的网络平台进行事件抽取,得到多个结构化事件,并将多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到多个结构化事件对应的多个基本事件;以结构化事件的自身属性作为结构化事件的质量,并以结构化事件的传播流行度作为位移,根据位移和结构化事件的从发布到被采集的时间,通过动力学模型确定结构化事件的加速度;根据结构化事件的加速度和质量,通过动力学模型确定各结构化事件的外力,集合各基本事件中结构化事件的外力,作为各基本事件的外力,根据基本事件的外力确定网络平台中各基本事件是否为广义突发事件。

    一种字符串散列表实现方法和系统

    公开(公告)号:CN110321346A

    公开(公告)日:2019-10-11

    申请号:CN201910450998.8

    申请日:2019-05-28

    Abstract: 本发明涉及一种字符串散列表实现方法,包括:根据字符串长度,将该字符串分发至对应的散列表;其中,该散列表包括数组散列表、数值型散列表和字符型双散列表。本发明使用多种异构散列表存储字符串,针对不同字符串的长度选择合适的散列表;同时针对短字符串,将短字符串划分为固定的几个长度区间,提高内存空间利用率,利用字符串变长的特性,为每种区间的散列槽预留末尾的1字节空间原地存储元数据信息;而针对长字符串,使用二级散列表结构,一级散列表通过仅使用部分前缀值计算字符串散列,减少了散列值的计算量;而二级散列表作为一级散列表的冲突链存储表,解决了一级散列表精简散列计算导致的冲突增大的问题。

    一种新闻事件要素抽取方法与装置

    公开(公告)号:CN104408093B

    公开(公告)日:2018-01-26

    申请号:CN201410645944.4

    申请日:2014-11-14

    Abstract: 本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件的主角的观点和发言的语句,以及新闻事件发生的地点和时间。本发明在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。

    一种面向网络用户的个性化文本排序及推荐方法

    公开(公告)号:CN104298732B

    公开(公告)日:2018-01-09

    申请号:CN201410514028.7

    申请日:2014-09-29

    Abstract: 本发明提供一种面向网络用户的个性化文本排序及推荐方法,所述个性化文本排序方法包括对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,执行以下步骤:1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重。2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重。3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。

    KAD网络中由关键词哈希值推测关键词的方法及系统

    公开(公告)号:CN103605708B

    公开(公告)日:2017-12-08

    申请号:CN201310556473.5

    申请日:2013-11-11

    Abstract: 本发明提供一种KAD网络中由关键词哈希值推测关键词的方法及系统。所述方法包括利用关键词哈希值在KAD网络中搜索相关资源文件,得到所述相关资源文件的文件名;以及对所述相关资源文件的文件名进行分词处理,得到候选关键词及其在所述相关资源文件的文件名中出现的次数。所述方法还包括根据候选关键词在所述相关资源文件的文件名中出现的次数推测关键词。本发明可以准确地得到KAD网络中关键词哈希值对应的关键词信息,便于监管KAD网络、提高网络安全。

    一种子话题挖掘方法
    69.
    发明公开

    公开(公告)号:CN106844416A

    公开(公告)日:2017-06-13

    申请号:CN201611024146.5

    申请日:2016-11-17

    Abstract: 本发明提供一种子话题挖掘方法,包括:1)对语料库中每篇文档的每个词语的主题值进行初始化;2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;3)如果满足停止迭代的条件则根据当前的主题值信息得出LDA子话题,如果否,则回到步骤2)。本发明能够显著地提升针对专题文章集合的话题挖掘效果。

    一种BitTorrent和eMule下载文件的关联方法

    公开(公告)号:CN103269382B

    公开(公告)日:2016-09-28

    申请号:CN201310232849.7

    申请日:2013-06-13

    Abstract: 本发明提供一种BitTorrent和eMule下载文件的关联方法,包括下列步骤:1)建立eMule信息数据库,eMule信息数据库记录的信息包括已采集的ED2K链接、该ED2K链接所对应资源文件的数据大小和不同尺寸起始文件分片的SHA1值序列,所述不同尺寸起始文件分片的尺寸为2nKB,n的取值为从4到13的整数;2)对于当前的eMule网络中的ED2K链接,根据该ED2K链接所对应文件的文件大小和起始分片的SHA1哈希值在BitTorrent信息数据库中进行查找,将该目标种子文件与当前的ED2K链接相互关联。本发明能够避免BitTorrent和eMule两个P2P空间的资源文件被重复下载;能够有效利用BitTorrent和eMule两个P2P空间的资源来加快下载速度。

Patent Agency Ranking