-
公开(公告)号:CN1577328A
公开(公告)日:2005-02-09
申请号:CN200410055697.9
申请日:2004-07-28
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30716 , G06F17/218 , G06F17/2247
Abstract: 基于视觉的文档分割标识文档的语义内容的一个或多个部分。所述一个或多个部分通过在所述文档中标识多个可视块,并检测所述多个可视块的可视块之间的一个或多个分隔符来标识。至少部分地基于所述多个可视块和所述一个或多个分隔符对所述文档构造内容结构,并且所述内容结构标识所述文档的语义内容的一个或多个部分。使用基于视觉的文档分割所获得的内容结构能够在文档检索过程中被可任选地使用。