-
公开(公告)号:CN103559258A
公开(公告)日:2014-02-05
申请号:CN201310536603.9
申请日:2013-11-04
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明公开一种基于云计算的网页排序方法,该方法包括:通过对存储在云上的,经过分布式网页爬虫爬取的网络文件进行解析处理,得到网络的基本拓扑结构信息文件;离线计算PR值后存入相应的文档表,其格式为以url为主键,包含title,content,type,timestamp,outlinks(指出链接集合)等8个属性列的格式;由建立单个词-网页重要性的索引表也采用并行计算技术,此索引表格式为利用反向索引建立的以key,links(链接集合,且按重要性排序)的索引表格式;对离线的PageRank算法采用MapReduce的并行框架实现;当在线查询时,比较查询词和网页的相似度,结合离线查询的结果给出最终网页的排序。本发明的优点是采用了改进离线排序算法,充分利用了MapReduce并行框架,提高了离线排序的效率;采用了关键词技术和PageRank结合的技术使得结果更准确。
-
公开(公告)号:CN103559259A
公开(公告)日:2014-02-05
申请号:CN201310537406.9
申请日:2013-11-04
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明公开一种基于云平台的消除近似重复网页的实现方法,该方法包括以下步骤:网页预处理,提取网页正文;在正文中提取特征项用于表征正文内容;计算特征项的指纹,对特征项进行压缩或降维处理以方便存储和检索;基于特征指纹计算相似度,判定原始网页是否近似。本发明具有能够极大程度地减少遗漏近似重复网页重复,能较好地支持多种网页结构下的相似度计算等优点。
-
公开(公告)号:CN103617174A
公开(公告)日:2014-03-05
申请号:CN201310536651.8
申请日:2013-11-04
Applicant: 同济大学
IPC: G06F17/30
CPC classification number: G06F17/30545 , G06F17/30864
Abstract: 本发明公开一种基于云计算的分布式搜索方法,该方法包括通过分布式的网络爬虫爬取多种格式的网络文件;通过分布式的并行抽取解析爬虫所爬取到的文件,抽取格式为自定义的文档表格式;将抽取好的文档内容存入分布式的数据库中,建立文档表数据库;由文档表数据库建立索引表也采用并行计算技术,索引表格式也为自定义的格式;将索引文件导入索引数据库,为检索器提供索引数据;对检索结果采用PageRank以及优化的在线排序算法。本发明的优点是利用了分布式存储和计算的特点;改进和优化的排序算法,检索结果更精准;采用了语义扩展关键词技术,查询结果更丰富。
-
-