-
公开(公告)号:CN116796288A
公开(公告)日:2023-09-22
申请号:CN202310755089.1
申请日:2023-06-25
Applicant: 上海工程技术大学
IPC: G06F18/25 , G06F16/35 , G06F16/36 , G06F40/30 , G06V20/70 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/0895
Abstract: 本发明提供一种面向工业文档的多模态信息提炼方法和系统;所述方法包括以下步骤:从工业文档中获取半结构化的第一文本信息和非结构化的第二文本信息;基于第一文本信息提取文本特征;基于第二文本信息提取图像特征;根据文本特征和图像特征获取多模态融合特征;基于多模态融合特征对工业文档进行整体观点提炼;本发明通过融合文本特征和图像特征,能够实现对工业文档的整体观点进行提炼,提高了观点提炼的准确率;整个过程中不需要额外的人工操作,降低了人工成本,提高了生产效率;此外,本发明提供的面向工业文档的多模态信息提炼方法,具有一定的迁移性,可以适用于不同垂直领域的工业文档,以解决工业文档抽取问题。