Patent search ap:("中国科学院计算技术研究所") AND inv:"刘悦" Page 10

91.

发明授权
一种新闻列表页判断方法及筛选新闻列表页的方法有权

公开(公告)号：CN104182482B

公开(公告)日：2018-05-22

申请号：CN201410382359.X

申请日：2014-08-06

Applicant: 中国科学院计算技术研究所

Inventor： 刘晓娜 , 张凯 , 程学旗 , 刘悦 , 张瑾 , 余智华

IPC: G06F17/30

Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法，该方法包括获取网页，判断所述网页是否为新闻网页；如果所述网页不是新闻网页，则在所述网页中采集子网页对各个子网页重复本判定流程；如果所述网页是新闻网页并且被判定为频道内新闻网页，则判断所述网页的父网页是否为新闻网页；如果所述父网页不是新闻网页，则记录所述网页与所述父网页的关联信息；以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后，现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容，从而提高新闻数据的采集效率。

92.

发明授权
一种BT网络中热门种子文件获取方法有权

公开(公告)号：CN103533048B

公开(公告)日：2018-01-26

申请号：CN201310475961.3

申请日：2013-10-12

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 冯凯 , 席鹏弼 , 刘备 , 王元卓 , 刘悦

IPC: H04L29/08

Abstract: 本发明提供一种BT网络中热门种子文件获取方法，包括下列步骤：1）构造多个虚拟BT客户端，所述多个虚拟BT客户端的ID均匀分布在BT网络ID逻辑空间；2）各虚拟BT客户端监听BT网络中的get_peers消息，统计所收到的对应于每个infohash的get_peer消息的数目；3）定期统计所有虚拟BT客户端所接收到的对应于每个infohash的get_peer消息的数目，并根据get_peer消息的数目确定相应的infohash是否为热门infohash。本发明能够全面准确地获取整个BT网络范围内的热门种子文件。

93.

发明授权
一种网页信息的抽取方法和系统有权许可

公开(公告)号：CN103870506B

公开(公告)日：2017-02-08

申请号：CN201210548678.4

申请日：2012-12-17

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 万圣贤 , 余钧 , 郭岩 , 刘悦 , 张瑾 , 余智华

IPC: G06F17/30

Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括：获得已标注网页，生成语义结构树，构建信息模式图，生成信息模式图中每个语义属性节点的语义属性节点信息，生成包装器，将包装器导出为包装器文件；构建用于抽取已标注网页的同类网页的抽取器；获得待抽取网页，抽取器在待抽取网页的DOM树中，从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区；导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度，同时本发明也保证了在线抽取的效率，从而具有较高的实用性。

94.

发明公开
一种基于时间串的论坛页面信息自动抽取方法及系统有权

公开(公告)号：CN104268148A

公开(公告)日：2015-01-07

申请号：CN201410429698.9

申请日：2014-08-27

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 郗家贞 , 郭岩 , 刘悦 , 俞晓明 , 赵岭

IPC: G06F17/30

CPC classification number: G06F17/30876

Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树，清除文件对象模型树中的无用标签和空标签；根据所述时间串，对所述文件对象模型树进行聚类，生成多个聚类集合，遍历所述聚类集合，获取最大簇，若所述最大簇只包含一个单独节点，则所述论坛页面为单楼页面，根据所述单独节点的时间串，获取所述单楼页面的发帖时间信息；遍历所述文件对象模型树，获取包含网页地址的新节点，通过关键字列表或正则式列表，对网页地址进行关键字查找或正则式查找；若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式，则获取新节点及其子节点包含的文本信息，文本信息为所述单楼页面的用户名信息。

95.

发明公开
一种新闻列表页判断方法及筛选新闻列表页的方法有权

公开(公告)号：CN104182482A

公开(公告)日：2014-12-03

申请号：CN201410382359.X

申请日：2014-08-06

Applicant: 中国科学院计算技术研究所

Inventor： 刘晓娜 , 张凯 , 程学旗 , 刘悦 , 张瑾 , 余智华

IPC: G06F17/30

CPC classification number: G06F17/30873 , G06F17/30867 , G06F17/30876

Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法，该方法包括获取网页，判断所述网页是否为新闻网页；如果所述网页不是新闻网页，则在所述网页中采集子网页对各个子网页重复本判定流程；如果所述网页是新闻网页并且被判定为频道内新闻网页，则判断所述网页的父网页是否为新闻网页；如果所述父网页不是新闻网页，则记录所述网页与所述父网页的关联信息；以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后，现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容，从而提高新闻数据的采集效率。

96.

发明公开
一种短文本数据的事件演化分析方法有权许可

公开(公告)号：CN103150383A

公开(公告)日：2013-06-12

申请号：CN201310082990.3

申请日：2013-03-15

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 刘盛华 , 李福鑫 , 王元卓 , 刘悦

IPC: G06F17/30 , G06F17/27

Abstract: 本发明提供一种短文本数据的事件演化分析方法，包括：根据词库和当前时段输入的短文本数据构造当前时段的文档—词项矩阵并对其进行非负矩阵分解，得到文档—事件矩阵和事件—词项矩阵；根据事件—词项矩阵计算当前时段的事件和前一时段的事件之间的相似度，根据该相似度、当前时段的事件和前一时段的剩余图构造当前时段的事件关系图；当前时段的事件关系图分割为一个或多个子图；对子图进行归类得到新生成事件集和演化事件集；根据文档—事件矩阵计算每个事件关联的文档数，并根据该文档数做演化事件集的趋势分析和预测，作为下一时段非负矩阵分解的约束条件。该方法适于动态地跟踪短文本数据的事件演化过程。

97.

发明公开
基于开放知识库的短文本语义概念自动化扩展方法及系统有权许可

公开(公告)号：CN103150382A

公开(公告)日：2013-06-12

申请号：CN201310081984.6

申请日：2013-03-14

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 刘盛华 , 肖永磊 , 王元卓 , 刘悦

IPC: G06F17/30

Abstract: 本发明公开了一种基于开放知识库的短文本语义概念自动化扩展方法，所述方法将每条短文本生成的n-gram集合中的每个元素链接到开放知识库中与该元素最相关的概念，并且基于开放知识库的概念关系矩阵和所链接的概念，为该元素生成扩展的语义概念集合。该方法仅采用开放知识库文档中的锚文本信息而不采用文档的词项信息和目录信息来构建概念关系矩阵，这使得该矩阵的构造和计算方便，而且克服了目录信息粒度比较粗，歧义多的问题。而且在语义概念扩展阶段，采用基于上下文的语义相似度计算方法来进行语义概念扩展，同时考虑了短文本内容的上下文内容的一致性和概念在抽象语义层的相似性，提高了语义概念扩展的准确性。

98.

发明公开
一种从单记录网页中抽取规律噪音的方法有权许可

公开(公告)号：CN103064966A

公开(公告)日：2013-04-24

申请号：CN201210592795.0

申请日：2012-12-31

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 李海燕 , 郭岩 , 万圣贤 , 郭少华 , 刘悦 , 余智华

IPC: G06F17/30

Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法，所述方法包括：首先将多个单记录网页转化为DOM树，并且将所述DOM树按照结构进行分类；然后，将同一类别的DOM树进行对齐合并得到站点板块风格树；在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置，最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置，抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况，加快了抽取速度；此外，本发明的抽取结果具有较高的准确性，取得了较好的效果，并且可靠性高。

99.

发明公开
社会标签自动标注的方法以及社会标签自动标注器有权许可复审申请

公开(公告)号：CN102289514A

公开(公告)日：2011-12-21

申请号：CN201110263798.5

申请日：2011-09-07

Applicant: 中国科学院计算技术研究所

Inventor： 刘盛华 , 程学旗 , 郭嘉丰 , 刘悦 , 廖华明 , 朱亚涛

IPC: G06F17/30

Abstract: 本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重，以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重，并归一化；对上述权重建立线性融合权值模型，并估计线性融合参数；以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性，因此能够提高社会标签自动标注的准确性。

100.

发明公开
P2P中资源下载方法及其系统有权

公开(公告)号：CN101741750A

公开(公告)日：2010-06-16

申请号：CN201010034234.X

申请日：2010-01-15

Applicant: 中国科学院计算技术研究所

Inventor： 程学旗 , 叶靖 , 吕建明 , 李静远 , 刘悦 , 张铁赢 , 李哲中

IPC: H04L12/56 , H04L1/22 , H04L29/08

Abstract: 本发明涉及一种P2P中资源下载方法及其系统，方法包括：步骤1，节点根据物理网络信息和预设的节点组划分标准选择加入的节点组；步骤2，发生数据请求的节点为用户节点，用户节点获得拥有请求数据的备选节点，备选节点组成备选节点集合；步骤3，用户节点依据用户节点所属的节点组，以及备选节点同所述用户节点间的连接质量，从备选节点集合中选择备选节点，被选择的备选节点作为资源节点；步骤4，用户节点从所述资源节点下载请求的数据。本发明能够在选择节点进行下载时应用物理层网络拓扑结构。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification