-
公开(公告)号:CN119601182A
公开(公告)日:2025-03-11
申请号:CN202411645624.9
申请日:2024-11-18
Applicant: 浙江大学
IPC: G16H30/40 , G06V20/40 , G06V10/82 , G06V10/776 , G06T7/00 , G06F16/334 , G06N3/0455 , G06N3/09
Abstract: 本发明公开了一种从腹腔镜手术图像获取长文本描述的生成与评估方法,包括:构造包含腹腔镜手术图像、短文本描述、目标边界框和手术知识的提示词,基于该提示词利用大语言模型构建长文本描述数据;构建图像长文本描述生成模型,包含预训练的视觉编码器、视觉特征查询变换器、语言解码器和外部手术概念向量数据库;使用长文本描述数据对图像长文本描述生成模型进行有监督训练;构建长文本描述评估方法对训练好的模型进行评估;通过腹腔镜图像系统获取输入的腹腔镜图像视频流,筛选关键帧作为待处理图像;将待处理的图像输入训练、评估后的模型,得到图像长文本描述结果。本发明可以增强对图像中手术细节的理解能力,生成更全面的手术图像描述。
-
公开(公告)号:CN117876453A
公开(公告)日:2024-04-12
申请号:CN202410046203.8
申请日:2024-01-12
Applicant: 浙江大学
IPC: G06T7/557 , G06N3/0464 , G06N3/0455 , G06N3/045 , G06N3/096 , G06N3/0895 , G06N3/0499 , G06N3/084
Abstract: 本发明公开了一种用于腹腔镜视频图像的单目自监督深度估计方法及系统,包括:构建深度估计网络和相机运动估计网络;其中,深度估计网络由预训练ViT编码器、视觉提示令牌和CNN解码器组成;相机运动估计网络主体结构与深度估计网络类似,但在解码器上引入坐标注意力模块,并采用全连接层作为位姿头输出6自由度的位姿;对深度估计网络和相机运动估计网络进行自监督训练,使用低秩矩阵微调和视觉提示令牌进行两个阶段训练;使用真实人类腹腔镜视频进行自监督微调,最终得到训练好的深度估计模型;将经过图像预处理的腹腔镜视频有效帧输入训练好的深度估计模型,获得逐像素的深度估计结果。利用本发明,可以提高深度估计结果的准确度。
-