-
公开(公告)号:CN106354870A
公开(公告)日:2017-01-25
申请号:CN201610828103.6
申请日:2016-09-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F16/254
Abstract: 本发明提供一种数据加载系统和方法。所述方法包括:多个数据加载节点中的一个接收加载请求;响应于该加载请求,在多个数据加载节点中启动与该加载请求相对应的加载服务进程,以及生成加载标识,该加载标识与该加载服务进程相关联;数据源节点基于所述加载标识获得所述加载服务进程的监听地址;数据源节点向该监听地址发送待加载数据;数据加载节点从该监听地址接收来自该数据源节点的待加载数据,以及按照设置的路由规则将数据转发至其他数据加载节点,或者将数据加载到相关联的存储设备。根据本发明的方法,可以提高数据加载的安全性和可靠性,避免采用硬件或者频繁启动加载而带来的损耗成本,并且利用并发的系统资源来执行数据加载的过程。
-
公开(公告)号:CN103269382B
公开(公告)日:2016-09-28
申请号:CN201310232849.7
申请日:2013-06-13
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明提供一种BitTorrent和eMule下载文件的关联方法,包括下列步骤:1)建立eMule信息数据库,eMule信息数据库记录的信息包括已采集的ED2K链接、该ED2K链接所对应资源文件的数据大小和不同尺寸起始文件分片的SHA1值序列,所述不同尺寸起始文件分片的尺寸为2nKB,n的取值为从4到13的整数;2)对于当前的eMule网络中的ED2K链接,根据该ED2K链接所对应文件的文件大小和起始分片的SHA1哈希值在BitTorrent信息数据库中进行查找,将该目标种子文件与当前的ED2K链接相互关联。本发明能够避免BitTorrent和eMule两个P2P空间的资源文件被重复下载;能够有效利用BitTorrent和eMule两个P2P空间的资源来加快下载速度。
-
公开(公告)号:CN102289514B
公开(公告)日:2016-03-30
申请号:CN201110263798.5
申请日:2011-09-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重,以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重,并归一化;对上述权重建立线性融合权值模型,并估计线性融合参数;以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准确性。
-
公开(公告)号:CN103631949B
公开(公告)日:2016-01-27
申请号:CN201310674521.0
申请日:2013-12-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社交网络数据采集方法和系统,所述方法包括根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量。其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。所述方法还包括根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。本发明可针对不同的用户制定不同的实时数据采集策略,提高了社交网络数据采集的实时性和效率。
-
公开(公告)号:CN105260374A
公开(公告)日:2016-01-20
申请号:CN201510423353.7
申请日:2015-07-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30283 , G06F17/3048
Abstract: 本发明适用于分布式信息处理技术领域,提供了一种异步流水线式的图查询方法,应用于分布式图数据库,包括:根据查询请求创建包含多个查询步骤的流水线;检测所述查询步骤的缓存队列,根据所述缓存队列的剩余元素的容量唤醒多个预取线程;创建异步化管理后端数据层的连接和查询的线程池,为所述流水线配置所述线程池容量,所述流水线末端获得查询的结果。借此,本发明提高了查询速度和客户端的吞吐率。
-
公开(公告)号:CN101739430B
公开(公告)日:2015-11-25
申请号:CN200810227105.5
申请日:2008-11-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于关键词的文本情感分类器训练方法和分类方法,其中情感分类器训练方法包括下列步骤:1)在旧领域训练集和新领域测试集的文本的关键词中挑选枢纽特征;2)计算描述所述枢纽特征与所述旧领域训练集和新领域测试集的文本中词语的关系的矩阵W;3)由所述旧领域训练集和新领域测试集内的文本构成矩阵X,在映射空间X·W上训练分类器。根据本发明的文本情感分类方法对新领域的文本进行分类的精度更高。
-
公开(公告)号:CN103235812B
公开(公告)日:2015-04-01
申请号:CN201310146037.0
申请日:2013-04-24
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种查询多意图识别方法和系统,所述方法包括:根据G-PLSI模型计算查询意图概率特征向量,其中,G-PLSI模型用于模拟摘要文本的产生过程、相同查询意图下搜索不同查询时的点击链接行为,以及相同查询意图下在同一session中搜索不同查询的行为,查询意图概率特征向量体现摘要文本信息以及不同查询在相同链接上的点击概率和在同一session中的共现概率。所述方法还包括:计算不同查询的查询意图概率特征向量之间的相似度并且根据该相似度进行查询聚类。本发明使用的查询意图概率特征向量对查询内容和用户点击行为进行结合利用,能够更准确地反映用户搜索意图。
-
公开(公告)号:CN104077417A
公开(公告)日:2014-10-01
申请号:CN201410342939.6
申请日:2014-07-18
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30675 , G06F17/30702 , G06Q50/01
Abstract: 本发明提供一种社交网络中的人物标签推荐方法和系统,所述方法包括:基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成。所述方法还包括:对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。本发明解决了现有人物标签推荐技术中,标签推荐质量不高的问题,以及能使标签推荐的结果更具个性化并且更加多样化。
-
公开(公告)号:CN103778200A
公开(公告)日:2014-05-07
申请号:CN201410010836.X
申请日:2014-01-09
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F17/30684
Abstract: 本发明公开了一种报文信息源抽取方法及其系统,该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。
-
公开(公告)号:CN103618725A
公开(公告)日:2014-03-05
申请号:CN201310645762.2
申请日:2013-12-04
Applicant: 中国科学院计算技术研究所
IPC: H04L29/06
Abstract: 本发明提供一种KAD网络资源信息的获取方法及系统。该方法包括:在KAD网络的节点ID空间内选取n个均匀分布的节点ID,构造相应的n个模拟节点加入所述KAD网络,其中n为正整数。由所述模拟节点监听所述KAD网络,以及由所述模拟节点解析其他节点发来的资源信息存储请求消息并且获取资源信息。本发明在加快信息获取速度的同时,可以较全面地得到KAD网络中的资源信息。
-
-
-
-
-
-
-
-
-