-
公开(公告)号:CN102521337A
公开(公告)日:2012-06-27
申请号:CN201110405541.9
申请日:2011-12-08
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 本发明提供了一种基于海量知识网络的学术社区系统,包括信息收集与存储模块,用于收集网络和用户提供的信息形成知识网络;学术检索模块,用于在所述知识网络中对会议、文献、作者和领域综述进行检索;学术服务模块,用于利用所述知识网络服务用户的个性需求;社区模块,用于用户之间以及用户与知识网络之间的信息交互。本发明充分利用网络资源形成知识网络,提供了更多的搜索和服务功能以及用户与知识库交互的接口,满足学术工作者的科研需求。
-
公开(公告)号:CN102254014B
公开(公告)日:2013-06-05
申请号:CN201110205137.7
申请日:2011-07-21
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种从学术主页中抽取信息的方法,其步骤为:(1)在互联网中发现学术主页;(2)对学术主页进行爬取和解析,使用启发式策略减少无关页面的爬取,加快解析速度;(3)将页面解析成DOM树的形式,并按照元素的属性和内容进行划分,得到内聚的文本单元列表;(4)使用信息识别器对文本单元进行识别,每种信息识别器只识别一种信息类型,对于文章信息还需要进行子字段提取。(5)对抽取结果进行关联分析,利用信息的关联性消除歧义,对缺失字段进行补全;(6)将抽取结果与数据库进行匹配,消除冗余数据,抽取结果以语义数据的形式保存在语义数据库中。本发明通过结合使用启发式规则,机器学习方法和条件概率模型能够高效准确的从学术主页中抽取学术信息。
-
公开(公告)号:CN103714149B
公开(公告)日:2017-04-19
申请号:CN201310733599.5
申请日:2013-12-26
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种自适应增量式的深网数据源发现方法,将深层网络数据源发现过程分为站点定位和站内搜索两个阶段,在站点定位阶段引进站点发现机制可以高效扩充站点数据以提高爬行效率;在站点和站内链接选取采用自适应的排序机制,能够更快的发现深层网络站点和可查询表单。本方法实现了增量自动高效采集深网数据源,可用于深层网络数据集成和暗网爬虫,同时也适用于构建在线数据库目录站点。
-
公开(公告)号:CN102521337B
公开(公告)日:2014-05-07
申请号:CN201110405541.9
申请日:2011-12-08
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 本发明提供了一种基于海量知识网络的学术社区系统,包括信息收集与存储模块,用于收集网络和用户提供的信息形成知识网络;学术检索模块,用于在所述知识网络中对会议、文献、作者和领域综述进行检索;学术服务模块,用于利用所述知识网络服务用户的个性需求;社区模块,用于用户之间以及用户与知识网络之间的信息交互。本发明充分利用网络资源形成知识网络,提供了更多的搜索和服务功能以及用户与知识库交互的接口,满足学术工作者的科研需求。
-
公开(公告)号:CN103714149A
公开(公告)日:2014-04-09
申请号:CN201310733599.5
申请日:2013-12-26
Applicant: 华中科技大学
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种自适应增量式的深网数据源发现方法,将深层网络数据源发现过程分为站点定位和站内搜索两个阶段,在站点定位阶段引进站点发现机制可以高效扩充站点数据以提高爬行效率;在站点和站内链接选取采用自适应的排序机制,能够更快的发现深层网络站点和可查询表单。本方法实现了增量自动高效采集深网数据源,可用于深层网络数据集成和暗网爬虫,同时也适用于构建在线数据库目录站点。
-
-
-
-