-
公开(公告)号:CN1399228A
公开(公告)日:2003-02-26
申请号:CN02129045.8
申请日:2002-08-29
Applicant: 北京北大方正技术研究院有限公司 , 北京大学计算机科学技术研究所
Abstract: 本发明属于智能信息处理技术,具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷,提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘,由于充分的利用了半结构化文档中的结构信息与链接信息,挖掘效果大大改进。本方法可广泛地应用于智能信息处理。
-
公开(公告)号:CN1180377C
公开(公告)日:2004-12-15
申请号:CN02129045.8
申请日:2002-08-29
Applicant: 北京北大方正技术研究院有限公司 , 北京大学计算机科学技术研究所
IPC: G06N7/00
Abstract: 本发明属于智能信息处理技术,具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷,提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘,由于充分的利用了半结构化文档中的结构信息与链接信息,挖掘效果大大改进。本方法可广泛地应用于智能信息处理。
-
公开(公告)号:CN1604074A
公开(公告)日:2005-04-06
申请号:CN200410091433.9
申请日:2004-11-22
Applicant: 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/21
Abstract: 本发明属于文字与图形信息处理技术领域,具体涉及一种对图文互斥分栏串文版面确定文字阅读顺序的方法。针对现有复杂形状版面中阅读顺序存在歧义的缺陷,首次定义了不规则版面特有对象“单调排版区”并提出版面层次树模型,采用自顶向下逐层分解方法构造层次树;然后各层版面对象依据空间关系映射成独立的全序序列,特别对“单调排版区”对象间复杂的空间关系采用图论二分图最大匹配的匈牙利算法映射成全序序列。最后自下而上根据各层版面对象的全序序列形成文字的阅读顺序。本发明主要应用于报纸、杂志、广告等视觉表现复杂的排版处理,优点在于自动化,无需手工干涉,且时间复杂度多项式级,大大提高了印前流程效率,效果更符合人类的视觉脉络。
-
公开(公告)号:CN1604073A
公开(公告)日:2005-04-06
申请号:CN200410091432.4
申请日:2004-11-22
Applicant: 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/21
Abstract: 本发明属于智能文字与图形信息处理技术,具体涉及一种对报纸版面进行标题与正文逻辑关联的方法。针对现有版面理解技术只依赖样式信息分类版面逻辑对象且对多篇章多标题的报纸版面缺乏语义结构提取的缺陷,本发明首次以图论理论进行数学建模,利用二分图匹配模型描述非正文区域集和正文区域集匹配粒度一对一的特性,根据空间关系建立加权二分图,并首次采用自然语言处理技术计算二分图边权值,最优匹配结果的配对饱和顶点作为逻辑关联成功的标题和正文篇章。本发明提出用最优匹配的库恩-曼克勒(Kuhn-Munkres)算法和人工智能相结合来解决标题正文的逻辑关联问题,使得匹配准确率非常高,可应用于历史数据结构化和元数据提取处理中。
-
公开(公告)号:CN1604075A
公开(公告)日:2005-04-06
申请号:CN200410091434.3
申请日:2004-11-22
Applicant: 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/21
Abstract: 本发明属于智能文字与图形信息处理中的文档版面理解技术,具体涉及一种基于内容的对报纸版面进行文字阅读顺序恢复的方法。针对现有技术处理复杂报纸版面存在丢失阅读顺序且内容不具有篇章独立性的缺陷,本发明首次对此问题以图论理论进行数学建模,把文字块的邻接关系表示为有向图,并把有向图拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,子序列对应内容的连接即是独立篇章的具有阅读顺序的文字流。利用了语义、空间关系和样式信息,阅读顺序恢复的正确率大大改进且以篇章为单位具有独立性。本方法可应用于带样式文档的版面理解和结构化重构。
-
公开(公告)号:CN100568221C
公开(公告)日:2009-12-09
申请号:CN200410091434.3
申请日:2004-11-22
Applicant: 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/21
Abstract: 本发明属于智能文字与图形信息处理中的文档版面理解技术,具体涉及一种基于内容的对报纸版面进行文字阅读顺序恢复的方法。针对现有技术处理复杂报纸版面存在丢失阅读顺序且内容不具有篇章独立性的缺陷,本发明首次对此问题以图论理论进行数学建模,把文字块的邻接关系表示为有向图,并把有向图拆分转化为加权二分图,采用自然语言处理技术计算二分图边权值,通过最优匹配得到多个连续序列,每个序列再根据文字块样式信息分割成多个子序列,子序列对应内容的连接即是独立篇章的具有阅读顺序的文字流。利用了语义、空间关系和样式信息,阅读顺序恢复的正确率大大改进且以篇章为单位具有独立性。本方法可应用于带样式文档的版面理解和结构化重构。
-
公开(公告)号:CN1320481C
公开(公告)日:2007-06-06
申请号:CN200410091432.4
申请日:2004-11-22
Applicant: 北京北大方正技术研究院有限公司 , 北京大学
IPC: G06F17/21
Abstract: 本发明属于智能文字与图形信息处理技术,具体涉及一种对报纸版面进行标题与正文逻辑关联的方法。针对现有版面理解技术只依赖样式信息分类版面逻辑对象且对多篇章多标题的报纸版面缺乏语义结构提取的缺陷,本发明首次以图论理论进行数学建模,利用二分图匹配模型描述非正文区域集和正文区域集匹配粒度一对一的特性,根据空间关系建立加权二分图,并首次采用自然语言处理技术计算二分图边权值,最优匹配结果的配对饱和顶点作为逻辑关联成功的标题和正文篇章。本发明提出用最优匹配的库恩-曼克勒(Kuhn-Munkres)算法和人工智能相结合来解决标题正文的逻辑关联问题,使得匹配准确率非常高,可应用于历史数据结构化和元数据提取处理中。
-
-
-
-
-
-