Patent search ap:("中国科学院计算技术研究所" OR "国家计算机网络应急技术处理协调中心") AND inv:"程学旗" Page 12

111.

发明公开
可动态适应的LSM树合并方法及系统有权

公开(公告)号：CN105159915A

公开(公告)日：2015-12-16

申请号：CN201510419480.X

申请日：2015-07-16

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 张虔熙 , 张敬亮 , 廖华明

IPC: G06F17/30

CPC classification number: G06F17/30327 , G06F17/30483

Abstract: 本发明适用于文件处理技术领域，提供了一种可动态适应的LSM树合并方法，所述方法包括：将键值区间划分为若干节点，将所述节点组织为树形结构，每个所述节点对应一键值区间，每个所述键值区间包含对应该键值区间范围的文件；根据当前数据的分布动态调整树的形状；当有新写入的文件时，遍历树寻找最适节点放入；对文件进行处理时，对节点内部进行Minor Compact处理，并且只通过叶节点执行Major Compact。本发明还相应的提供一种实现上述方法的可动态适应的LSM树合并系统。借此，本发明可以实现动态适应数据的分布，提高数据合并效率。

112.

发明公开
一种面向分布式顺序表的缓存方法及系统有权

公开(公告)号：CN105045894A

公开(公告)日：2015-11-11

申请号：CN201510463230.6

申请日：2015-07-31

Applicant: 中国科学院计算技术研究所

Inventor： 查礼 , 郑忠诚 , 程学旗

IPC: G06F17/30

CPC classification number: G06F17/3048 , G06F17/30545 , G06F17/30575

Abstract: 本发明涉及分布式信息处理技术领域，特别涉及一种面向分布式顺序表的缓存方法及系统，该方法包括为所有数据块设置基础分值，当进行数据查询操作时，通过分布式顺序表，获取数据查询操作所涉及的数据范围，统计数据范围中各数据块将要被访问的访问次数，将访问次数累加到相应的数据块；当数据块被缓存命中时，被命中的数据块的分值减去固定值，当缓存空间已满时，则触发缓存的换出操作，在换出操作开始时，根据数据块的分值进行排序，从分值最小的数据块开始淘汰，直到缓存空间能够增加数据块。

113.

发明授权
面向领域的暗网资源采集方法和系统有权许可

公开(公告)号：CN103116635B

公开(公告)日：2015-06-24

申请号：CN201310049317.X

申请日：2013-02-07

Applicant: 中国科学院计算技术研究所

Inventor： 熊锦华 , 林海伦 , 程学旗 , 张永超 , 廖华明

IPC: G06F17/30

Abstract: 本发明提供了一种面向领域的暗网资源采集方法。该方法从抓取的页面中识别与指定领域相关的页面，获取有效表单集合；对于有效表单集合中的每个表单，判断其表单类型并按照不同的表单类型构造有效查询，所述表单类型为单输入项的表单或多输入项的表单；以及输出有效的查询所返回的结果，作为采集的暗网资源。该方法能够实现暗网资源查询接口的自动识别和分类，同时实现简单查询接口和复杂查询接口的查询的有效构造，从而实现暗网资源的采集。该方法不仅能够无缝的集成到现有的搜索引擎当中，而且能够同时进行简单查询接口和复杂查询接口所指向的暗网资源的采集。

114.

发明公开
一种面向开放网页的实体属性抽取方法和系统有权

公开(公告)号：CN104636466A

公开(公告)日：2015-05-20

申请号：CN201510071993.6

申请日：2015-02-11

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 贾岩涛 , 赵泽亚 , 王元卓 , 熊锦华 , 李曼玲 , 林海伦 , 许洪波

IPC: G06F17/30

Abstract: 本发明提供一种面向开放网页的实体属性抽取方法和系统。其中，所述方法包括：提取开放网页的文本，从中获得目标实体的候选文本集合；以及，根据目标实体属性在训练文本集合中出现的频率，选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。本发明能够提高开放网页实体属性抽取的准确率和召回率，并且不依赖于网页结构，能够适应开放网页类型的变化。

115.

发明公开
一种面向知识库更新的实体细粒度分类方法与系统有权

公开(公告)号：CN104615687A

公开(公告)日：2015-05-13

申请号：CN201510033050.4

申请日：2015-01-22

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 王元卓 , 林海伦 , 贾岩涛 , 熊锦华 , 李曼玲 , 常雨骁 , 许洪波

IPC: G06F17/30

CPC classification number: G06F17/30734 , G06F17/30705

Abstract: 本发明提供一种面向知识库更新的实体细粒度分类方法与系统。所述方法包括：从文本中识别出实体；将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图，其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度；以及，通过在所述依赖图上执行重启动随机游走，得到识别出的实体所属的分类。本发明能够克服现有技术在实体上下文缺乏的情况下难以实现对该实体进行细粒度分类的缺陷，并且提高了实体细粒度分类的准确率。

116.

发明授权
微博客数据采集方法及系统有权许可

公开(公告)号：CN102609460B

公开(公告)日：2015-02-04

申请号：CN201210011178.7

申请日：2012-01-13

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 房伟伟 , 李静远 , 陈根宝 , 邢国亮 , 张凯 , 金波 , 方滨兴

IPC: G06F17/30

Abstract: 本发明提供了一种基于用户分类的微博客数据采集方法。该方法首先初始化用户进行用户分类的数据；对获得的用户特征进行提取，取得可用于进行用户确定的特征数据；对提取出的数据进行过滤，多过滤后的数据根据特征之间的关系进行用户类型确定；对不同类别的用户采用不同的策略进行数据采集。该方法能够保证微博客数据采集的完整性和实时性，并能进行自适应的调整，以适应网络数据的变化。

117.

发明授权
文本情感倾向性分析方法有权复审申请

公开(公告)号：CN101882136B

公开(公告)日：2015-02-04

申请号：CN200910083522.1

申请日：2009-05-08

Applicant: 中国科学院计算技术研究所

Inventor： 吴琼 , 谭松波 , 程学旗

IPC: G06F17/30

Abstract: 本发明提供一种文本情感倾向性分析方法，包括下列步骤：1)根据训练文本的标签确定测试文本的初始情感分；2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化；3)当所述迭代结束时，根据所述计算的结果判别所述测试文本的情感倾向性。本发明提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。

118.

发明公开
一种基于时间串的论坛页面信息自动抽取方法及系统有权

公开(公告)号：CN104268148A

公开(公告)日：2015-01-07

申请号：CN201410429698.9

申请日：2014-08-27

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 郗家贞 , 郭岩 , 刘悦 , 俞晓明 , 赵岭

IPC: G06F17/30

CPC classification number: G06F17/30876

Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树，清除文件对象模型树中的无用标签和空标签；根据所述时间串，对所述文件对象模型树进行聚类，生成多个聚类集合，遍历所述聚类集合，获取最大簇，若所述最大簇只包含一个单独节点，则所述论坛页面为单楼页面，根据所述单独节点的时间串，获取所述单楼页面的发帖时间信息；遍历所述文件对象模型树，获取包含网页地址的新节点，通过关键字列表或正则式列表，对网页地址进行关键字查找或正则式查找；若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式，则获取新节点及其子节点包含的文本信息，文本信息为所述单楼页面的用户名信息。

119.

发明公开
一种新闻列表页判断方法及筛选新闻列表页的方法有权

公开(公告)号：CN104182482A

公开(公告)日：2014-12-03

申请号：CN201410382359.X

申请日：2014-08-06

Applicant: 中国科学院计算技术研究所

Inventor： 刘晓娜 , 张凯 , 程学旗 , 刘悦 , 张瑾 , 余智华

IPC: G06F17/30

CPC classification number: G06F17/30873 , G06F17/30867 , G06F17/30876

Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法，该方法包括获取网页，判断所述网页是否为新闻网页；如果所述网页不是新闻网页，则在所述网页中采集子网页对各个子网页重复本判定流程；如果所述网页是新闻网页并且被判定为频道内新闻网页，则判断所述网页的父网页是否为新闻网页；如果所述父网页不是新闻网页，则记录所述网页与所述父网页的关联信息；以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后，现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容，从而提高新闻数据的采集效率。

120.

发明公开
分布式顺序表片内二级索引方法及系统无效

公开(公告)号：CN104133867A

公开(公告)日：2014-11-05

申请号：CN201410345063.0

申请日：2014-07-18

Applicant: 中国科学院计算技术研究所

Inventor： 查礼 , 万浩 , 程学旗

IPC: G06F17/30

CPC classification number: G06F17/30321

Abstract: 本发明公开了一种分布式顺序表片内二级索引方法及系统，其中系统包括，索引布局管理模块，为每个数据存储文件创建对应的索引存储文件；一致性更新模块，写入数据时，先将该数据写入预写日志中，再写入内存存储中，若该内存存储中该数据部分丢失，将该预写入日志中未成功写入磁盘上的该数据重新写入该内存存储中；内存存储刷写模块，若该内存存储存量达到某阈值，先生成该内存存储中类型不为“删除”的数据记录对应的索引记录，并刷写该索引记录到该磁盘上生成该索引存储文件，再生成数据存储文件；合并和分裂模块，索引存储文件随着数据存储文件一起合并和分裂，保证两者的一致性；多维区间查询模块，对每个数据分片单独查询，一次查询可使用多列索引。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification