一种基于多目标关联深度推理的图像问答方法

    公开(公告)号:CN110263912A

    公开(公告)日:2019-09-20

    申请号:CN201910398140.1

    申请日:2019-05-14

    Inventor: 余宙 俞俊 汪亮

    Abstract: 本发明公开了一种基于多目标关联深度推理的图像问答方法。本发明包括以下步骤:1、对图像和以其自然语言描述的文本进行数据预处理,2、基于候选框几何特征增强的适应性注意力模块模型,进行各目标的注意力机制重排序。3、基于AAM模型的神经网络结构。4、模型训练,利用反向传播算法训练神经网络参数。本发明提出一种针对图像问答的深度神经网络,特别是提出一种对图像-问题文本的数据进行统一建模,在图像中各目标特征上进行推理,对各目标的注意力机制重排序从而更精确地对问题进行回答的方法,并且在图像问答领域中的获得较好效果。

    一种基于跨模态预训练特征增强的视觉问答方法

    公开(公告)号:CN114663677B

    公开(公告)日:2025-04-29

    申请号:CN202210368717.6

    申请日:2022-04-08

    Inventor: 俞俊 高鹏昺 余宙

    Abstract: 本发明公开了一种基于跨模态预训练特征增强的视觉问答方法。本发明建模相对空间关系特征,利用语义对齐的局部/全局视觉特征和语言特征,结合特征增强模块以及深度堆叠的语言侧SA模块、视觉侧RGA模块来获得更加丰富的复合语义信息,最后通过局部/全局特征融合模块输出综合特征进而用于预测答案。该方法在视觉问答任务上取得了显著性的提升效果,超越了众多使用传统物体特征或网格特征作为视觉特征的方法,甚至优于许多使用视觉‑语言“预训练‑微调”范式的模型。

    一种基于大语言模型的复杂图表问答数据自动生成方法

    公开(公告)号:CN118886493A

    公开(公告)日:2024-11-01

    申请号:CN202411013087.6

    申请日:2024-07-26

    Inventor: 余宙 李朋 俞俊

    Abstract: 本发明涉及一种基于大语言模型的复杂图表问答数据自动生成方法,包括使用大语言模型通过多阶段逐层细化的方式生成多领域的重大事件标题;使用大语言模型生成与每个标题和图表类型相关的非表格数值类数据;根据生成的复杂图表数据,使用编写的代码生成相应的图表图像,通过自定义的代码脚本,将数据转换为不同类型的图表图像;生成与图表数据相关的问答问题,涵盖简单理解题、中等复杂度题和高难度推理题,图表数据涵盖多种类型的问答问题,包括数据解读、趋势分析、因果关系推理,本发明通过生成内容涵盖多领域、多时期、多区域的复杂图表数据,提高了传统图表问答数据集的多样性和复杂性,有效提升了多模态学习模型在实际应用中的表现。

    一种面向通用多模态学习的神经框架搜索方法

    公开(公告)号:CN112488292B

    公开(公告)日:2024-02-02

    申请号:CN202011300717.X

    申请日:2020-11-19

    Inventor: 余宙 俞俊 崔雨豪

    Abstract: 本发明公开了一种面向通用多模态学习的神经框架搜索方法。本发明包括以下步骤:1、对图像和文本数据进行数据预处理,提取特征。2、初始化编码器‑解码器结构冗余网络和对应的架构参数。3、从架构参数分布中采样出子结构,并计算结果。4、模型搜索,热启动和交替更新保证搜索结构的稳定性。5、模型训练,将搜索出的最优子网络重新训练,得到最优网络模型。本发明提出一种针对图像文本多模态建模的神经框架搜索的方法,特别是针对不同的任务搜索到了更优的子网络,降低了网络的参数量计算量,充分利用各模态的深层次特征,提高了扩模态特征的表达能力,并且在三个多模态任务中获得了领先的效果。

    一种多源异构知识联合增强的视觉知识推理问答方法

    公开(公告)号:CN117010500A

    公开(公告)日:2023-11-07

    申请号:CN202310836128.0

    申请日:2023-07-10

    Inventor: 余宙 李立权 俞俊

    Abstract: 本发明公开了一种多源异构知识联合增强的视觉知识推理问答方法。首先使用多模态模型生成图像的文本描述和问题的候选答案作为多源异构知识检索的辅助信息,提高检索到的知识的质量。具体检索了四种异构知识:维基百科知识、相关网页文本知识、相关网页图像知识和大规模语言模型知识。多源异构知识相互补充,共同为视觉问答系统的性能提升做出贡献。基于多源异构知识,训练异构知识融合推理模型,提升了问答模型回答的质量和准确率,使得问答模型可以回答需要外部知识的问题,扩大了问答模型的应用场景。

    基于视觉问答的医疗影像报告结构化生成方法

    公开(公告)号:CN116168796A

    公开(公告)日:2023-05-26

    申请号:CN202310198891.5

    申请日:2023-03-03

    Abstract: 本发明提出了一种基于视觉问答的医疗影像报告结构化生成方法。本发明步骤如下:1、VQA模型设计与改造。2、“问题‑状态树”设计。3、信息自动化提取。4、结构化信息整合。本发明以视觉问答技术为基础,以生成医疗影像诊断报告为目的,着眼于增强问题与模型之间的交互性,设计了以“问题‑状态树”为核心的一系列数据结构及其相互间的转化算法。本发明一定程度上降低了视觉问答技术中问题组织上的随意性,有助于VQA模型在医学影像中获取更加有效的信息。使用这种技术构建的模型具有高度的可扩展性,能够以更低的训练成本完成更为全面的业务,在实际应用中可根据具体不同的应用场景灵活生成逻辑完整、包含丰富信息的医疗影像诊断报告。

    基于知识引导深度注意力网络的场景文字视觉问答方法

    公开(公告)号:CN113792177B

    公开(公告)日:2023-02-03

    申请号:CN202110896688.6

    申请日:2021-08-05

    Inventor: 余宙 朱俊杰 俞俊

    Abstract: 本发明公开了一种基于知识引导深度注意力网络的的场景文字视觉问答方法。本发明步骤:1、数据预处理及数据集的划分,2、构建问题的语言特征,3、构建图像的物体综合特征,4、获取图像的文本综合特征,5、构建前预测词的特征,6、构建相对空间关系特征,7、构建相对语义关系特征,8、构建深度神经网络,9、损失函数,10、训练模型,11、网络预测值计算。本发明通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,并深度堆叠知识增强自注意力网络层数来获得更加丰富的信息,相比于先前基于卷积神经网络和构建对象间浅层关系的方法性能有了很大提升。

    基于领域自适应神经网络的自动驾驶转向角度预测方法

    公开(公告)号:CN111007719B

    公开(公告)日:2022-08-05

    申请号:CN201911102180.3

    申请日:2019-11-12

    Abstract: 本发明公开了一种基于领域自适应神经网络的自动驾驶转向角度预测方法。本发明包括以下步骤:1、获取真实场景数据集和虚拟场景数据集,数据预处理。2、使用两个参数独立但结构相同的卷积神经网络提取语义特征。3、将特征向量输入转向角度预测网络和领域分类网络并建模一组对抗性的损失函数。4、模型训练,优化损失函数。5、保留语义特征提取网络和转向角度预测网络,对模型进行测试或应用。本发明提出用一种端到端的对抗性神经网络架构实现角度预测模型从虚拟环境数据集到真实环境数据集的领域自适应,并针对此神经网络架构设计了合适的损失函数和训练方法,提高了模型在多种真实驾驶场景下的准确性和泛化性。

    一种基于时序特征金字塔的视频密集描述生成方法

    公开(公告)号:CN113392717A

    公开(公告)日:2021-09-14

    申请号:CN202110558847.1

    申请日:2021-05-21

    Inventor: 俞俊 余宙 韩男佳

    Abstract: 本发明公开了一种基于时序特征金字塔的视频密集描述方法。在变换网络模型框架下,对视频进行编码的同时利用局部注意力机制获取不同分辨率的特征,然后使用多个检测头对不同分辨率的特征进行检测,实现对不同持续时间的事件的全面覆盖。在检测出可能包含事件的时间片段之后,本发明进一步地利用特征融合方式对不同分辨率的视频特征进行融合,从而为事件生成更具针对性的描述。本发明方法相比于其他方法取得了更高的准确率和召回率,同时,描述生成解码器根据融合之后的特征也生成了更高质量的描述语句,这证明了该方法的普适通用性,可在其他多模态任务中充分发挥价值。

    一种基于适配网络增强扩散模型的人体姿态场景恢复方法

    公开(公告)号:CN117392675B

    公开(公告)日:2025-04-22

    申请号:CN202311293866.1

    申请日:2023-10-09

    Abstract: 本发明公开了一种基于适配网络增强扩散模型的人体姿态场景恢复方法,属于计算机视觉的图像生成领域,该方法首先每一组训练用的数据表示为一个五元组(A(N),B(N),y,ZA,ZB),并用点阵A(N),B(N)分别制作灰度图A0,B0。其次由扩散模型得到扩散模型中主副适配器的差异,并根据差异计算出损失函数,并计算结余损失。最后根据损失函数和结余损失函数得到全局优化函数,对输出的人物姿态图进行优化。本发明消除了通过试探方法训练寻找损失函数间权值时所需的计算开销,实现了预训练模型功能细分的训练方式,使得输出的人物姿态图更为准确稳定。

Patent Agency Ranking