-
公开(公告)号:CN116704198A
公开(公告)日:2023-09-05
申请号:CN202210174858.4
申请日:2022-02-24
Applicant: 复旦大学
IPC: G06V10/40 , G06V10/774 , G06V10/82 , G06N5/02 , G06N5/04 , G06N3/0464 , G06N3/042 , G06N3/045 , G06N3/08
Abstract: 本发明公开了一种基于多模态信息引导的知识增强视觉问答方法,具有这样的特征,包括以下步骤:步骤1,构建图像的全局视觉模态特征并提取视觉模态信息;步骤2,基于所述视觉模态信息的问题实体进行注意力操作,提取需要引入外部知识的所述问题实体,并对提取的所述问题进行知识引入,得到增强问题;步骤3,将增强问题的编码为推理指令,以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理,最后获取相应的答案。
-
公开(公告)号:CN116704272A
公开(公告)日:2023-09-05
申请号:CN202210180289.4
申请日:2022-02-25
Applicant: 复旦大学
IPC: G06V10/77 , G06V10/80 , G06V10/764 , G06V10/82 , G06F16/58 , G06N3/0464 , G06N3/08 , G06N5/04
Abstract: 本发明公开了用于医学视觉‑语言多模态任务的文本嵌入表示方法,包括:步骤1,获取带有类别标签的医学图像数据集,进行预处理,同时划分为测试集和训练集;步骤2,预训练一个基于Transformer块的上下文信息特征的神经网络模型并进行优化训练;步骤3,获取带有医学图像‑文本对的数据集,并进行标准化处理,进行多分类预测,得到图像‑标签‑文本的三元组对;步骤4,对三元组对执行预定操作,得到图像标签的文本特征表示和图像文本对中文本的特征表示;步骤5,将图像标签的文本特征表示融入到图像文本对中文本的特征表示中,得到联合嵌入特征表示;步骤6,使用t‑SNE算法将联合嵌入特征表示降维至二维空间中,从而在隐式嵌入空间中观察特征分布。
-
公开(公告)号:CN114969459A
公开(公告)日:2022-08-30
申请号:CN202210343042.X
申请日:2022-04-02
Applicant: 复旦大学
IPC: G06F16/9032 , G06F16/33 , G06N5/04 , G06N5/02
Abstract: 本发明涉及是计算机多模态信息处理领域和认知科学领域,主要涉及一种基于认知双通道的认知推理的视觉问答方法。主要包括以下步骤:步骤1,构建认知内容,提取问题关键字,图像目标区域的标签内容,作为检索大型知识库的索引,通过检索内容构建任务知识库;步骤2,先验认知计算,通过多模态预训练模型,训练视觉文本内容表征;步骤3,构建任务的推理时空特性,通过对问句进行句法分析、词性分析,构建了问题关键字词之间的拓扑图,运用步骤2中的视觉表征内容计算图像内部区域的关联度,构建图像内容空间图结构;步骤4,锁定与问答内容相关的图像内容,根据步骤2中的联合表征的视觉向量、文本向量,计算每个文本向量关注的图像内容,构建问答关联图像内容;步骤5,层次认知的推理,联合步骤1中构建的知识内容与步骤2的先验计算,对问答内容重新编码,根据重编码的表示内容与步骤3分析的时空特性相结合,构建问答指令集合,通过问答指令进行问答推理,获取视觉问答的结果。本发明提高了开放域视觉问答模型的准确率,在推理过程中根据外部知识内容不断修正对问答内容的认知理解,使得视觉问答过程具有鲁棒性和可解释性。
-
公开(公告)号:CN114757192A
公开(公告)日:2022-07-15
申请号:CN202210341776.4
申请日:2022-04-02
Applicant: 复旦大学
IPC: G06F40/295 , G06F40/205 , G06N3/04 , G06N3/08
Abstract: 本发明属于计算机自然语言处理技术领域,具体为一种融合注意力机制和片段排列的实体关系联合抽取方法。该方法的步骤包括:输入文本,将输入的文本转化为词向量;基于片段排列的方式枚举所有可能的候选片段;将所有的候选片段输入到注意力机制的神经网络模型,根据注意力得分进行剪枝,来减少实体负样本的数量;进行命名实体识别和关系抽取。本发明基于片段排列的方式,能够枚举所有可能的片段,选择的每一个片段都是独立的,可以直接提取片段级别的特征去解决重叠实体问题。同时,针对实体负样本数量过多的问题,本发明加入了注意力机制,根据注意力的得分,可以有效地删除部分负样本以提高实体关系联合抽取的性能。
-
-
-