Patent search ap:("复旦大学") AND inv:"肖仰华" Page 9

81.

发明授权
一种基于在线百科链接实体的知识抽取方法失效

公开(公告)号：CN103902649B

公开(公告)日：2017-01-18

申请号：CN201410052292.3

申请日：2014-02-17

Applicant: 复旦大学

Inventor： 张可尊 , 肖仰华 , 汪卫

IPC: G06F17/30

Abstract: 本发明属于开放知识抽取技术领域，具体为一种基于在线百科链接实体的知识抽取方法。其通过有效的证据融合方法移除链接实体中的不相关实体，得到高质量的相关链接实体；然后利用Gmeans聚类方法对相关的链接实体做聚类，用基于LCA的类标签生成方法为每个类产生一个描述性的类标签，这样每个类对应的实体集合和类标签构成一组知识；最后，为了提高大数据量实体的聚类效率，使用基于最大生成树的类复用机制，从而极大节约聚类时间。本发明不同于传统的知识抽取方法，其抽取基于在线百科的链接实体，而不是正文内容，极大的避免了自然语言处理方法的计算代价高、错误率高等缺点，可以高效地处理大规模数据。

82.

发明授权
一种电子阅读感兴趣语义范围自动导航的方法和系统失效

公开(公告)号：CN103488723B

公开(公告)日：2016-11-09

申请号：CN201310419468.X

申请日：2013-09-13

Applicant: 复旦大学

Inventor： 王晓平 , 肖仰华 , 汪卫

IPC: G06F17/30 , G06F17/27

Abstract: 本发明属于电子阅读技术领域，具体涉及一种电子阅读感兴趣语义范围自动导航的方法和系统。本发明系统主要由初级导航和精确导航两个级联的模块组成；首先，针对读者选定的少量内容，采用视频跟踪中的CamShift方法进行目标跟踪，并通过考察目标丢失瞬间的目标边界来确定语义范围的边界，从而得到初级导航结果；然后再根据考察相邻句子间的语义跳变来实现进一步的精确导航，并以此结果作为最终结果提交给读者；本发明能提供给读者真正感兴趣的内容，节省读者有限的阅读时间和阅读精力。

83.

发明授权
一种基于知识库的名片OCR数据修正方法和系统有权转让

公开(公告)号：CN103488983B

公开(公告)日：2016-10-26

申请号：CN201310419348.X

申请日：2013-09-13

Applicant: 复旦大学

Inventor： 王晓平 , 肖仰华 , 汪卫

IPC: G06K9/20 , G06F17/30

Abstract: 本发明属于名片识别技术领域，具体涉及一种基于知识库的名片OCR数据修正方法和系统。本发明的系统包括图像输入模块、预处理模块、OCR模块、数据修正模块、结果输出模块。本发明首先对输入名片图像进行包括倾斜校正、剪切、缩放在内的一系列图像处理，然后使用数字形态学处理技术、连通区分析技术从中提取出独立的字符串块作为子图像送入后续的OCR模块；接着，在对OCR的输出结果进行了信息结构化处理后，利用知识库的海量信息，以及文本+图像的两级修正方法、基于知识库IDF值加权的改进DTW方法等，实现对包括地址、单位机构名称以及纯数字在内的信息修正，从而在OCR的基础上，进一步提升识别准确率。

84.

发明公开
一种基于在线百科链接实体的知识抽取方法失效

公开(公告)号：CN103902649A

公开(公告)日：2014-07-02

申请号：CN201410052292.3

申请日：2014-02-17

Applicant: 复旦大学

Inventor： 张可尊 , 肖仰华 , 汪卫

IPC: G06F17/30

Abstract: 本发明属于开放知识抽取技术领域，具体为一种基于在线百科链接实体的知识抽取方法。其通过有效的证据融合方法移除链接实体中的不相关实体，得到高质量的相关链接实体；然后利用Gmeans聚类方法对相关的链接实体做聚类，用基于LCA的类标签生成方法为每个类产生一个描述性的类标签，这样每个类对应的实体集合和类标签构成一组知识；最后，为了提高大数据量实体的聚类效率，使用基于最大生成树的类复用机制，从而极大节约聚类时间。本发明不同于传统的知识抽取方法，其抽取基于在线百科的链接实体，而不是正文内容，极大的避免了自然语言处理方法的计算代价高、错误率高等缺点，可以高效地处理大规模数据。

85.

发明公开
自动检测屏蔽的通用分布式爬虫系统失效

公开(公告)号：CN103491165A

公开(公告)日：2014-01-01

申请号：CN201310431787.2

申请日：2013-09-22

Applicant: 复旦大学

Inventor： 肖仰华 , 梁家卿 , 汪卫

IPC: H04L29/08 , H04L12/44 , G06F9/46

Abstract: 本发明属于分布式系统和人工智能技术领域，具体为一种自动检测屏蔽的通用分布式爬虫系统。该系统采用星型网络架构，包括一个核心节点Master和多个从机Slave，核心节点Master控制集群中的从机Slave。本发明中采用全自动检测被屏蔽页面的算法，其通过检测爬虫下载的页面的大小和Token编辑距离的分布的随机性来检测是否出现异常情况，以自动分辨当前获取的页面是否是有效数据。本发明的系统可以自动分辨当前集群中的每台机器是否被屏蔽，以进行更好的任务调度，从而更大程度地利用机器资源和网络资源。

86.

发明公开
一种电子阅读感兴趣语义范围自动导航的方法和系统失效

公开(公告)号：CN103488723A

公开(公告)日：2014-01-01

申请号：CN201310419468.X

申请日：2013-09-13

Applicant: 复旦大学

Inventor： 王晓平 , 肖仰华 , 汪卫

IPC: G06F17/30 , G06F17/27

Abstract: 本发明属于电子阅读技术领域，具体涉及一种电子阅读感兴趣语义范围自动导航的方法和系统。本发明系统主要由初级导航和精确导航两个级联的模块组成；首先，针对读者选定的少量内容，采用视频跟踪中的CamShift方法进行目标跟踪，并通过考察目标丢失瞬间的目标边界来确定语义范围的边界，从而得到初级导航结果；然后再根据考察相邻句子间的语义跳变来实现进一步的精确导航，并以此结果作为最终结果提交给读者；本发明能提供给读者真正感兴趣的内容，节省读者有限的阅读时间和阅读精力。

Previous page
1
2
3
4
5
6
7
8
9

Patent Agency Ranking