-
公开(公告)号:CN113190734A
公开(公告)日:2021-07-30
申请号:CN202110461513.2
申请日:2021-04-27
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于单平台的网络事件流行度预测方法,包括以下步骤:将网络事件在时序上按照固定时间间隔进行划分以形成多个事件片段,并提取各个事件片段的多个维度特征;分别提取各个事件片段的多个维度特征中的相同维度特征以形成多个维度时序特征,并融合多个维度时序特征得到网络事件的统一特征;根据统一特征预测网络事件的流行度。
-
公开(公告)号:CN110704717A
公开(公告)日:2020-01-17
申请号:CN201910833905.X
申请日:2019-09-04
Applicant: 中国科学院计算技术研究所
IPC: G06F16/953 , G06F16/33
Abstract: 本发明提出一种基于动力学模型的网络突发事件检测方法及系统,包括:对指定的网络平台进行事件抽取,得到多个结构化事件,并将多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到多个结构化事件对应的多个基本事件;以结构化事件的自身属性作为结构化事件的质量,并以结构化事件的传播流行度作为位移,根据位移和结构化事件的从发布到被采集的时间,通过动力学模型确定结构化事件的加速度;根据结构化事件的加速度和质量,通过动力学模型确定各结构化事件的外力,集合各基本事件中结构化事件的外力,作为各基本事件的外力,根据基本事件的外力确定网络平台中各基本事件是否为广义突发事件。
-
公开(公告)号:CN110321346A
公开(公告)日:2019-10-11
申请号:CN201910450998.8
申请日:2019-05-28
Applicant: 中国科学院计算技术研究所
IPC: G06F16/22
Abstract: 本发明涉及一种字符串散列表实现方法,包括:根据字符串长度,将该字符串分发至对应的散列表;其中,该散列表包括数组散列表、数值型散列表和字符型双散列表。本发明使用多种异构散列表存储字符串,针对不同字符串的长度选择合适的散列表;同时针对短字符串,将短字符串划分为固定的几个长度区间,提高内存空间利用率,利用字符串变长的特性,为每种区间的散列槽预留末尾的1字节空间原地存储元数据信息;而针对长字符串,使用二级散列表结构,一级散列表通过仅使用部分前缀值计算字符串散列,减少了散列值的计算量;而二级散列表作为一级散列表的冲突链存储表,解决了一级散列表精简散列计算导致的冲突增大的问题。
-
公开(公告)号:CN109388768A
公开(公告)日:2019-02-26
申请号:CN201811008673.6
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于附加分支处理服务的采集方法和系统,包括:获取采集任务,该采集任务具有多个处理步骤和分支号;依次执行该采集任务中的处理步骤,并在每一个处理步骤执行前,根据该分支号判断是否调用该附加分支处理服务,若是,则通过调用该附加分支处理服务执行附加处理流程,并替代将要执行的处理步骤,否则执行将要执行的处理步骤。由此,本发明采用附加分支的技术,能够应对信源的各种复杂情况。且针对附加分支单独开发,容易崩溃的情况,采用服务化方法执行附加分支,并且附加分支运行器可以在崩溃自动重启,可以避免附加分支崩溃带来的采集器崩溃问题。
-
公开(公告)号:CN109241483A
公开(公告)日:2019-01-18
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN104408093B
公开(公告)日:2018-01-26
申请号:CN201410645944.4
申请日:2014-11-14
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件的主角的观点和发言的语句,以及新闻事件发生的地点和时间。本发明在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。
-
公开(公告)号:CN104298732B
公开(公告)日:2018-01-09
申请号:CN201410514028.7
申请日:2014-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向网络用户的个性化文本排序及推荐方法,所述个性化文本排序方法包括对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,执行以下步骤:1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重。2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重。3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。
-
公开(公告)号:CN103605708B
公开(公告)日:2017-12-08
申请号:CN201310556473.5
申请日:2013-11-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种KAD网络中由关键词哈希值推测关键词的方法及系统。所述方法包括利用关键词哈希值在KAD网络中搜索相关资源文件,得到所述相关资源文件的文件名;以及对所述相关资源文件的文件名进行分词处理,得到候选关键词及其在所述相关资源文件的文件名中出现的次数。所述方法还包括根据候选关键词在所述相关资源文件的文件名中出现的次数推测关键词。本发明可以准确地得到KAD网络中关键词哈希值对应的关键词信息,便于监管KAD网络、提高网络安全。
-
公开(公告)号:CN106844416A
公开(公告)日:2017-06-13
申请号:CN201611024146.5
申请日:2016-11-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种子话题挖掘方法,包括:1)对语料库中每篇文档的每个词语的主题值进行初始化;2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;3)如果满足停止迭代的条件则根据当前的主题值信息得出LDA子话题,如果否,则回到步骤2)。本发明能够显著地提升针对专题文章集合的话题挖掘效果。
-
公开(公告)号:CN103269382B
公开(公告)日:2016-09-28
申请号:CN201310232849.7
申请日:2013-06-13
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明提供一种BitTorrent和eMule下载文件的关联方法,包括下列步骤:1)建立eMule信息数据库,eMule信息数据库记录的信息包括已采集的ED2K链接、该ED2K链接所对应资源文件的数据大小和不同尺寸起始文件分片的SHA1值序列,所述不同尺寸起始文件分片的尺寸为2nKB,n的取值为从4到13的整数;2)对于当前的eMule网络中的ED2K链接,根据该ED2K链接所对应文件的文件大小和起始分片的SHA1哈希值在BitTorrent信息数据库中进行查找,将该目标种子文件与当前的ED2K链接相互关联。本发明能够避免BitTorrent和eMule两个P2P空间的资源文件被重复下载;能够有效利用BitTorrent和eMule两个P2P空间的资源来加快下载速度。
-
-
-
-
-
-
-
-
-