基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法

    公开(公告)号:CN117635625A

    公开(公告)日:2024-03-01

    申请号:CN202311785716.2

    申请日:2023-12-22

    Abstract: 本发明公开了一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法,包括:构建样本集,使用医学图像自动数据增强策略扩充样本,训练多注意力辅助UNet模型至模型收敛,更新并保存最优参数权重;并利用训练后的模型进行胰腺肿瘤分割图;多注意力辅助UNet模型包括:辅助UNet,用于输出原始图像的辅助掩码预测图像的同时,为主UNet提供多尺度特征;特征强化层,用于基于辅助掩码预测图像强化原始图像中的相关特征;主UNet,用于以特征强化图为输入,结合多尺度特征输出主掩码预测图像;特征拼接层,将辅助和主掩码预测图像进行拼接后,通过卷积调整通道,得到原始图像的最终分割结果;各UNet内、辅助UNet与主UNet间均设置有不同的注意力机制模块层。

    一种基于时序特征金字塔的视频密集描述生成方法

    公开(公告)号:CN113392717B

    公开(公告)日:2024-02-13

    申请号:CN202110558847.1

    申请日:2021-05-21

    Inventor: 俞俊 余宙 韩男佳

    Abstract: 本发明公开了一种基于时序特征金字塔的视频密集描述方法。在变换网络模型框架下,对视频进行编码的同时利用局部注意力机制获取不同分辨率的特征,然后使用多个检测头对不同分辨率的特征进行检测,实现对不同持续时间的事件的全面覆盖。在检测出可能包含事件的时间片段之后,本发明进一步地利用特征融合方式对不同分辨率的视频特征进行融合,从而为事件生成更具针对性的描述。本发明方法相比于其他方法取得了更高的准确率和召回率,同时,描述生成解码器根据融合之后的特征也生成了更高质量的描述语句,这证明了该方法的普适通用性,可在其他多模态任务中充分发挥价值。

    基于视觉问答的医疗影像报告结构化生成方法

    公开(公告)号:CN116168796B

    公开(公告)日:2023-11-10

    申请号:CN202310198891.5

    申请日:2023-03-03

    Abstract: 本发明提出了一种基于视觉问答的医疗影像报告结构化生成方法。本发明步骤如下:1、VQA模型设计与改造。2、“问题‑状态树”设计。3、信息自动化提取。4、结构化信息整合。本发明以视觉问答技术为基础,以生成医疗影像诊断报告为目的,着眼于增强问题与模型之间的交互性,设计了以“问题‑状态树”为核心的一系列数据结构及其相互间的转化算法。本发明一定程度上降低了视觉问答技术中问题组织上的随意性,有助于VQA模型在医学影像中获取更加有效的信息。使用这种技术构建的模型具有高度的可扩展性,能够以更低的训练成本完成更为全面的业务,在实际应用中可根据具体不同的应用场景灵活生成逻辑完整、包含丰富信息的医疗影像诊断报告。

    一种基于深度交互适配网络模型的通用多模态学习方法

    公开(公告)号:CN116882477A

    公开(公告)日:2023-10-13

    申请号:CN202310847953.0

    申请日:2023-07-11

    Inventor: 余宙 王眺 俞俊

    Abstract: 本发明公开了一种基于深度交互适配网络模型的通用多模态学习方法。本发明步骤:1、获取图像单模态以及文本单模态的预训练模型,在两个预训练模型之间增设多模态适配器模块,2、分别加载图像和文本单模态模型的预训练权重参数并保持其不变,在多模态下游任务上微调训练所设计的适配器的权重参数,3、利用所微调的多模态适配器模型在多模态下游任务上进行推理部署。本发明通过为图像和文本两个单模态的预训练模型构建外部适配器网络,提取两个单模态模型的分层次特征,使用所构建的适配器进行多模态细粒度对齐融合,使单模态预训练模型可以迅速适用于多种多模态任务,并获得可与大规模多模态预训练模型相比的性能。

    一种基于跨模态预训练特征增强的视觉问答方法

    公开(公告)号:CN114663677A

    公开(公告)日:2022-06-24

    申请号:CN202210368717.6

    申请日:2022-04-08

    Inventor: 俞俊 高鹏昺 余宙

    Abstract: 本发明公开了一种基于跨模态预训练特征增强的视觉问答方法。本发明建模相对空间关系特征,利用语义对齐的局部/全局视觉特征和语言特征,结合特征增强模块以及深度堆叠的语言侧SA模块、视觉侧RGA模块来获得更加丰富的复合语义信息,最后通过局部/全局特征融合模块输出综合特征进而用于预测答案。该方法在视觉问答任务上取得了显著性的提升效果,超越了众多使用传统物体特征或网格特征作为视觉特征的方法,甚至优于许多使用视觉‑语言“预训练‑微调”范式的模型。

    一种面向视障人群的场景文字交互式理解系统

    公开(公告)号:CN114168104A

    公开(公告)日:2022-03-11

    申请号:CN202111491972.1

    申请日:2021-12-08

    Abstract: 本发明公开了一种面向视障人群的场景文字交互式理解系统,包括手机移动端APP和后端视觉交互计算处理平台,手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件;后端视觉交互处理计算平台包括输入预处理模块和多头注意力机制模型。本发明能够实现针对不同场景图片中的文字信息的识别,场景信息由用户自主采集,环境适应性和可拓展性高,且对于场景中文字识别的灵敏度和准确性高。可以根据用户问题进行动态回答,更具实用性和实时性;能够安装在手机移动端可以使用语音进行信息交互上,对用户来说,使用方便,耗费成本较低,简易上手。

    基于知识引导深度注意力网络的场景文字视觉问答方法

    公开(公告)号:CN113792177A

    公开(公告)日:2021-12-14

    申请号:CN202110896688.6

    申请日:2021-08-05

    Inventor: 余宙 朱俊杰 俞俊

    Abstract: 本发明公开了一种基于知识引导深度注意力网络的的场景文字视觉问答方法。本发明步骤:1、数据预处理及数据集的划分,2、构建问题的语言特征,3、构建图像的物体综合特征,4、获取图像的文本综合特征,5、构建前预测词的特征,6、构建相对空间关系特征,7、构建相对语义关系特征,8、构建深度神经网络,9、损失函数,10、训练模型,11、网络预测值计算。本发明通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,并深度堆叠知识增强自注意力网络层数来获得更加丰富的信息,相比于先前基于卷积神经网络和构建对象间浅层关系的方法性能有了很大提升。

Patent Agency Ranking