Patent search ap:("同济大学") AND inv:"平宇" Page 1

1.

发明公开
基于云计算的网页排序方法无效

公开(公告)号：CN103559258A

公开(公告)日：2014-02-05

申请号：CN201310536603.9

申请日：2013-11-04

Applicant: 同济大学

Inventor： 向阳 , 平宇 , 张依杨 , 陈佑雄 , 张波 , 袁书寒

IPC: G06F17/30

CPC classification number: G06F17/30864

Abstract: 本发明公开一种基于云计算的网页排序方法，该方法包括：通过对存储在云上的，经过分布式网页爬虫爬取的网络文件进行解析处理，得到网络的基本拓扑结构信息文件；离线计算PR值后存入相应的文档表,其格式为以url为主键，包含title,content,type,timestamp，outlinks(指出链接集合)等8个属性列的格式；由建立单个词-网页重要性的索引表也采用并行计算技术,此索引表格式为利用反向索引建立的以key,links(链接集合，且按重要性排序)的索引表格式；对离线的PageRank算法采用MapReduce的并行框架实现；当在线查询时，比较查询词和网页的相似度，结合离线查询的结果给出最终网页的排序。本发明的优点是采用了改进离线排序算法，充分利用了MapReduce并行框架，提高了离线排序的效率；采用了关键词技术和PageRank结合的技术使得结果更准确。

2.

发明公开
基于云平台的消除近似重复网页方法无效

公开(公告)号：CN103559259A

公开(公告)日：2014-02-05

申请号：CN201310537406.9

申请日：2013-11-04

Applicant: 同济大学

Inventor： 向阳 , 陈佑雄 , 张依杨 , 平宇 , 张波 , 袁书寒

IPC: G06F17/30

CPC classification number: G06F17/30867

Abstract: 本发明公开一种基于云平台的消除近似重复网页的实现方法，该方法包括以下步骤：网页预处理，提取网页正文；在正文中提取特征项用于表征正文内容；计算特征项的指纹，对特征项进行压缩或降维处理以方便存储和检索；基于特征指纹计算相似度，判定原始网页是否近似。本发明具有能够极大程度地减少遗漏近似重复网页重复，能较好地支持多种网页结构下的相似度计算等优点。

3.

发明公开
一种基于云计算的分布式搜索方法无效

公开(公告)号：CN103617174A

公开(公告)日：2014-03-05

申请号：CN201310536651.8

申请日：2013-11-04

Applicant: 同济大学

Inventor： 向阳 , 陈佑雄 , 张依杨 , 平宇 , 张波 , 袁书寒

IPC: G06F17/30

CPC classification number: G06F17/30545 , G06F17/30864

Abstract: 本发明公开一种基于云计算的分布式搜索方法，该方法包括通过分布式的网络爬虫爬取多种格式的网络文件；通过分布式的并行抽取解析爬虫所爬取到的文件，抽取格式为自定义的文档表格式；将抽取好的文档内容存入分布式的数据库中，建立文档表数据库；由文档表数据库建立索引表也采用并行计算技术，索引表格式也为自定义的格式；将索引文件导入索引数据库，为检索器提供索引数据；对检索结果采用PageRank以及优化的在线排序算法。本发明的优点是利用了分布式存储和计算的特点；改进和优化的排序算法，检索结果更精准；采用了语义扩展关键词技术，查询结果更丰富。

Patent Agency Ranking