-
公开(公告)号:CN101114281A
公开(公告)日:2008-01-30
申请号:CN200710045451.7
申请日:2007-08-30
Applicant: 上海交通大学
Abstract: 一种信息安全技术领域的开放式文档同构引擎系统,其中:物理结构模块接受各种文档的输入,并将文档的物理结构输出给逻辑结构模块;逻辑结构模块对物理结构模块输入的信息进行处理得到文档的逻辑结构,并将该其输入到词法及句法分析模块;词法及句法分析模块接收逻辑结构模块输入的信息,并对该信息进行处理得到经分析处理后的文档,并将得到的该文档输入概念抽取模块;概念抽取模块对词法及句法分析模块输入的信息进行处理得到由文档中的词转化出的概念及概念属性,并将得到的该概念及概念属性输入主题表示模块;主题表示模块对概念抽取模块输入的信息进行处理得到以概念为单位的文档主题。本发明解决了针对多格式文档无法统一处理的问题。