-
公开(公告)号:CN103902649B
公开(公告)日:2017-01-18
申请号:CN201410052292.3
申请日:2014-02-17
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于开放知识抽取技术领域,具体为一种基于在线百科链接实体的知识抽取方法。其通过有效的证据融合方法移除链接实体中的不相关实体,得到高质量的相关链接实体;然后利用Gmeans聚类方法对相关的链接实体做聚类,用基于LCA的类标签生成方法为每个类产生一个描述性的类标签,这样每个类对应的实体集合和类标签构成一组知识;最后,为了提高大数据量实体的聚类效率,使用基于最大生成树的类复用机制,从而极大节约聚类时间。本发明不同于传统的知识抽取方法,其抽取基于在线百科的链接实体,而不是正文内容,极大的避免了自然语言处理方法的计算代价高、错误率高等缺点,可以高效地处理大规模数据。
-
公开(公告)号:CN103488723B
公开(公告)日:2016-11-09
申请号:CN201310419468.X
申请日:2013-09-13
Applicant: 复旦大学
Abstract: 本发明属于电子阅读技术领域,具体涉及一种电子阅读感兴趣语义范围自动导航的方法和系统。本发明系统主要由初级导航和精确导航两个级联的模块组成;首先,针对读者选定的少量内容,采用视频跟踪中的CamShift方法进行目标跟踪,并通过考察目标丢失瞬间的目标边界来确定语义范围的边界,从而得到初级导航结果;然后再根据考察相邻句子间的语义跳变来实现进一步的精确导航,并以此结果作为最终结果提交给读者;本发明能提供给读者真正感兴趣的内容,节省读者有限的阅读时间和阅读精力。
-
公开(公告)号:CN103488983B
公开(公告)日:2016-10-26
申请号:CN201310419348.X
申请日:2013-09-13
Applicant: 复旦大学
Abstract: 本发明属于名片识别技术领域,具体涉及一种基于知识库的名片OCR数据修正方法和系统。本发明的系统包括图像输入模块、预处理模块、OCR模块、数据修正模块、结果输出模块。本发明首先对输入名片图像进行包括倾斜校正、剪切、缩放在内的一系列图像处理,然后使用数字形态学处理技术、连通区分析技术从中提取出独立的字符串块作为子图像送入后续的OCR模块;接着,在对OCR的输出结果进行了信息结构化处理后,利用知识库的海量信息,以及文本+图像的两级修正方法、基于知识库IDF值加权的改进DTW方法等,实现对包括地址、单位机构名称以及纯数字在内的信息修正,从而在OCR的基础上,进一步提升识别准确率。
-
公开(公告)号:CN103902649A
公开(公告)日:2014-07-02
申请号:CN201410052292.3
申请日:2014-02-17
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于开放知识抽取技术领域,具体为一种基于在线百科链接实体的知识抽取方法。其通过有效的证据融合方法移除链接实体中的不相关实体,得到高质量的相关链接实体;然后利用Gmeans聚类方法对相关的链接实体做聚类,用基于LCA的类标签生成方法为每个类产生一个描述性的类标签,这样每个类对应的实体集合和类标签构成一组知识;最后,为了提高大数据量实体的聚类效率,使用基于最大生成树的类复用机制,从而极大节约聚类时间。本发明不同于传统的知识抽取方法,其抽取基于在线百科的链接实体,而不是正文内容,极大的避免了自然语言处理方法的计算代价高、错误率高等缺点,可以高效地处理大规模数据。
-
公开(公告)号:CN103491165A
公开(公告)日:2014-01-01
申请号:CN201310431787.2
申请日:2013-09-22
Applicant: 复旦大学
Abstract: 本发明属于分布式系统和人工智能技术领域,具体为一种自动检测屏蔽的通用分布式爬虫系统。该系统采用星型网络架构,包括一个核心节点Master和多个从机Slave,核心节点Master控制集群中的从机Slave。本发明中采用全自动检测被屏蔽页面的算法,其通过检测爬虫下载的页面的大小和Token编辑距离的分布的随机性来检测是否出现异常情况,以自动分辨当前获取的页面是否是有效数据。本发明的系统可以自动分辨当前集群中的每台机器是否被屏蔽,以进行更好的任务调度,从而更大程度地利用机器资源和网络资源。
-
公开(公告)号:CN103488723A
公开(公告)日:2014-01-01
申请号:CN201310419468.X
申请日:2013-09-13
Applicant: 复旦大学
Abstract: 本发明属于电子阅读技术领域,具体涉及一种电子阅读感兴趣语义范围自动导航的方法和系统。本发明系统主要由初级导航和精确导航两个级联的模块组成;首先,针对读者选定的少量内容,采用视频跟踪中的CamShift方法进行目标跟踪,并通过考察目标丢失瞬间的目标边界来确定语义范围的边界,从而得到初级导航结果;然后再根据考察相邻句子间的语义跳变来实现进一步的精确导航,并以此结果作为最终结果提交给读者;本发明能提供给读者真正感兴趣的内容,节省读者有限的阅读时间和阅读精力。
-
-
-
-
-