-
公开(公告)号:CN117635625A
公开(公告)日:2024-03-01
申请号:CN202311785716.2
申请日:2023-12-22
IPC: G06T7/10 , G06V10/774 , G06V10/82 , G06V10/46
Abstract: 本发明公开了一种基于自动数据增强策略和多注意力辅助UNet的胰腺肿瘤分割方法,包括:构建样本集,使用医学图像自动数据增强策略扩充样本,训练多注意力辅助UNet模型至模型收敛,更新并保存最优参数权重;并利用训练后的模型进行胰腺肿瘤分割图;多注意力辅助UNet模型包括:辅助UNet,用于输出原始图像的辅助掩码预测图像的同时,为主UNet提供多尺度特征;特征强化层,用于基于辅助掩码预测图像强化原始图像中的相关特征;主UNet,用于以特征强化图为输入,结合多尺度特征输出主掩码预测图像;特征拼接层,将辅助和主掩码预测图像进行拼接后,通过卷积调整通道,得到原始图像的最终分割结果;各UNet内、辅助UNet与主UNet间均设置有不同的注意力机制模块层。
-
公开(公告)号:CN113392717B
公开(公告)日:2024-02-13
申请号:CN202110558847.1
申请日:2021-05-21
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于时序特征金字塔的视频密集描述方法。在变换网络模型框架下,对视频进行编码的同时利用局部注意力机制获取不同分辨率的特征,然后使用多个检测头对不同分辨率的特征进行检测,实现对不同持续时间的事件的全面覆盖。在检测出可能包含事件的时间片段之后,本发明进一步地利用特征融合方式对不同分辨率的视频特征进行融合,从而为事件生成更具针对性的描述。本发明方法相比于其他方法取得了更高的准确率和召回率,同时,描述生成解码器根据融合之后的特征也生成了更高质量的描述语句,这证明了该方法的普适通用性,可在其他多模态任务中充分发挥价值。
-
公开(公告)号:CN117520811A
公开(公告)日:2024-02-06
申请号:CN202311385592.9
申请日:2023-10-24
IPC: G06F18/213 , G06F18/25 , G06V10/80 , G06V10/40 , G06V10/82 , G06V40/16 , G06N3/045 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种基于渐进自适应模态增强注意力网络的多模态人格特质分析方法,包括:步骤1:获取不同模态的人格表征数据;步骤2:分别对各人格表征数据进行特征提取;步骤3:采用渐进自适应模态增强注意力网络,对不同模态的人格表征特征进行模态融合与相互增强;步骤4:将增强后的各个模态的人格表征特征送入到人格特质预测模块,得到人格特质预测结果。能够实现不同模态之间的多层次信息交换,在增强目标模态的同时也能够增强源模态;自适应模态增强单元(AMRU)能够自适应地调整自我注意力和跨模态注意力的权重,以捕获不同层次水平的跨模态序列数据之间的人格特质相关性。
-
公开(公告)号:CN117041458A
公开(公告)日:2023-11-10
申请号:CN202310821664.3
申请日:2023-07-06
IPC: H04N5/265 , H04N5/262 , H04N5/278 , H04N21/234 , H04N21/235 , H04N21/8549 , H04N21/232 , H04N21/81 , G10L13/02 , G06N3/0455 , G06N3/08 , G06F40/284
Abstract: 本发明提出了一种基于大规模预训练模型的短视频新闻生成系统,包括:前端网页模块和后端短视频新闻生成平台;前端网页模块具体分为交互组件、视频参数可视化组件、数据发送上传组件、数据接收组件;后端短视频新闻生成平台具体分为摘要生成模块、图文匹配模块、视频合成模块。本发明以摘要生成、信息抽取、图文匹配以及视频合成技术为基础,提供一种基于大规模预训练模型的短视频新闻生成系统,一定程度上减轻了新闻工作者在寻找素材和剪辑视频上的工作压力。只需输入新闻文本,便可以输出一段流畅的短视频新闻,方便工作者后续剪辑,在实际应用中可根据具体不同的应用场景进行扩展灵活生成对应的短视频新闻。
-
公开(公告)号:CN116168796B
公开(公告)日:2023-11-10
申请号:CN202310198891.5
申请日:2023-03-03
Applicant: 杭州电子科技大学
IPC: G16H15/00 , G06F16/25 , G06F16/36 , G06F16/332
Abstract: 本发明提出了一种基于视觉问答的医疗影像报告结构化生成方法。本发明步骤如下:1、VQA模型设计与改造。2、“问题‑状态树”设计。3、信息自动化提取。4、结构化信息整合。本发明以视觉问答技术为基础,以生成医疗影像诊断报告为目的,着眼于增强问题与模型之间的交互性,设计了以“问题‑状态树”为核心的一系列数据结构及其相互间的转化算法。本发明一定程度上降低了视觉问答技术中问题组织上的随意性,有助于VQA模型在医学影像中获取更加有效的信息。使用这种技术构建的模型具有高度的可扩展性,能够以更低的训练成本完成更为全面的业务,在实际应用中可根据具体不同的应用场景灵活生成逻辑完整、包含丰富信息的医疗影像诊断报告。
-
公开(公告)号:CN116882477A
公开(公告)日:2023-10-13
申请号:CN202310847953.0
申请日:2023-07-11
Applicant: 杭州电子科技大学
IPC: G06N3/084 , G06N3/042 , G06N5/04 , G06N3/0455 , G06N3/0499 , G06N3/048 , G06F18/25 , G06F18/213 , G06F40/289 , G06V10/80 , G06V10/77 , G06V10/82
Abstract: 本发明公开了一种基于深度交互适配网络模型的通用多模态学习方法。本发明步骤:1、获取图像单模态以及文本单模态的预训练模型,在两个预训练模型之间增设多模态适配器模块,2、分别加载图像和文本单模态模型的预训练权重参数并保持其不变,在多模态下游任务上微调训练所设计的适配器的权重参数,3、利用所微调的多模态适配器模型在多模态下游任务上进行推理部署。本发明通过为图像和文本两个单模态的预训练模型构建外部适配器网络,提取两个单模态模型的分层次特征,使用所构建的适配器进行多模态细粒度对齐融合,使单模态预训练模型可以迅速适用于多种多模态任务,并获得可与大规模多模态预训练模型相比的性能。
-
公开(公告)号:CN115205760A
公开(公告)日:2022-10-18
申请号:CN202210966913.3
申请日:2022-08-11
Applicant: 杭州电子科技大学 , 中国电子科技集团公司电子科学研究院
IPC: G06V20/40 , G06V10/82 , G06V10/774 , G06N3/08 , G06N3/04 , G06F40/289
Abstract: 本发明提出一种基于深度局部自注意力网络的视频密集描述生成方法。本发明步骤如下:1、数据集预处理以及数据集的划分,使用训练好的行为识别网络对视频提取特征;2、构建视频结构化密集描述的序列,并构建该序列的文本特征;3、构建序列到序列建模的深度局部自注意力网络;4、通过反向传播算法对步骤(3)中的网络参数进行训练,直至整个网络模型收敛。本发明同时将密集视频描述中的事件定位与事件描述两个子任务联合建模为一个序列生成任务,将两个独立的子任务紧密联系在一起,起到相互促进的作用,相比于大部分两阶段方法模型没有过多的超参数需要手工调整,训练模型更加方便,性能有了进一步提升。
-
公开(公告)号:CN114663677A
公开(公告)日:2022-06-24
申请号:CN202210368717.6
申请日:2022-04-08
Applicant: 杭州电子科技大学
IPC: G06V10/44 , G06V10/80 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G06F16/9032 , G06F16/9035
Abstract: 本发明公开了一种基于跨模态预训练特征增强的视觉问答方法。本发明建模相对空间关系特征,利用语义对齐的局部/全局视觉特征和语言特征,结合特征增强模块以及深度堆叠的语言侧SA模块、视觉侧RGA模块来获得更加丰富的复合语义信息,最后通过局部/全局特征融合模块输出综合特征进而用于预测答案。该方法在视觉问答任务上取得了显著性的提升效果,超越了众多使用传统物体特征或网格特征作为视觉特征的方法,甚至优于许多使用视觉‑语言“预训练‑微调”范式的模型。
-
公开(公告)号:CN114168104A
公开(公告)日:2022-03-11
申请号:CN202111491972.1
申请日:2021-12-08
Applicant: 杭州电子科技大学
IPC: G06F3/16 , G06F9/4401 , G06N3/02
Abstract: 本发明公开了一种面向视障人群的场景文字交互式理解系统,包括手机移动端APP和后端视觉交互计算处理平台,手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件;后端视觉交互处理计算平台包括输入预处理模块和多头注意力机制模型。本发明能够实现针对不同场景图片中的文字信息的识别,场景信息由用户自主采集,环境适应性和可拓展性高,且对于场景中文字识别的灵敏度和准确性高。可以根据用户问题进行动态回答,更具实用性和实时性;能够安装在手机移动端可以使用语音进行信息交互上,对用户来说,使用方便,耗费成本较低,简易上手。
-
公开(公告)号:CN113792177A
公开(公告)日:2021-12-14
申请号:CN202110896688.6
申请日:2021-08-05
Applicant: 杭州电子科技大学
IPC: G06F16/583 , G06F16/332 , G06F16/33 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于知识引导深度注意力网络的的场景文字视觉问答方法。本发明步骤:1、数据预处理及数据集的划分,2、构建问题的语言特征,3、构建图像的物体综合特征,4、获取图像的文本综合特征,5、构建前预测词的特征,6、构建相对空间关系特征,7、构建相对语义关系特征,8、构建深度神经网络,9、损失函数,10、训练模型,11、网络预测值计算。本发明通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征,得到先验知识关系,并深度堆叠知识增强自注意力网络层数来获得更加丰富的信息,相比于先前基于卷积神经网络和构建对象间浅层关系的方法性能有了很大提升。
-
-
-
-
-
-
-
-
-