一种多模态信息融合的文档内容增强检索系统及方法

    公开(公告)号:CN117312601A

    公开(公告)日:2023-12-29

    申请号:CN202311454975.7

    申请日:2023-11-03

    Abstract: 本发明涉及内容处理技术领域,尤其涉及一种多模态信息融合的文档内容增强检索系统及方法,为了针对现有对文档中文本及图像等材料进行分析和检索时存在不准确及效率底的问题,本发明提供了一种多模态信息融合的文档内容增强检索系统及方法,方法首先针对不同模态的内容进行预处理,采用文本融合技术,将文档中的文本内容和文档中图像的描述文本进行融合,形成最终的包含了文档文本信息及文档中图像描述信息的文本内容,通过各自模态的特征提取算法,并通过已有的主成分分析方法抽取出各类型数据的特征向量调整为统一维度的向量,采用融合技术将不同模态的特征进行融合,形成多模态特征表示,通过建立索引和使用相应的检索算法,实现对原始文件的高效检索和分析。

Patent Agency Ranking