-
公开(公告)号:CN118781436A
公开(公告)日:2024-10-15
申请号:CN202411248679.6
申请日:2024-09-06
Applicant: 中南大学
IPC: G06V10/764 , G06V10/44 , G06V10/77 , G06V10/762 , G06V10/82 , G06N3/045 , G06T7/00
Abstract: 本发明公开了一种基于深度学习的病理图像分类方法,包括获取已有的病理图像并预处理构建训练数据集;基于Vision Transformer网络构建病理图像分类初始模型并训练得到病理图像分类模型;采用病理图像分类模型,进行实际的病理图像分类。本发明还公开了一种包括所述基于深度学习的病理图像分类方法的成像方法。本发明基于Vision Transformer网络构建病理图像分类初始模型,并采用该模型进行训练和实际的病理图像分类;因此本发明不仅能够实现病理图像的分类,而且可靠性更高,精确性更好,通用性也更好。
-
公开(公告)号:CN115861884A
公开(公告)日:2023-03-28
申请号:CN202211557549.1
申请日:2022-12-06
Applicant: 中南大学
IPC: G06V20/40 , G06V10/82 , G06V10/46 , G06N3/08 , G06N3/0464
Abstract: 本公开实施例中提供了一种复杂场景下视频多目标跟踪方法、系统、设备及介质,属于计算机视觉技术领域,具体包括:步骤1,构建基于YOLOX检测模型的多目标跟踪模型;步骤2,在跟踪网络中加入带有关键点检测和对齐操作的重识别网络;步骤3,在数据关联阶段,重新设计跟踪网络中卡尔曼滤波的预测值与观测值之间的取舍方式,使得卡尔曼滤波以观测为中心;步骤4,设计含时序的IOU度量方式TIOU度量并添加至多目标跟踪模型;步骤5,将各个类别的数据集输入重新设计后的多目标跟踪模型,得到多目标跟踪结果。通过本公开的方案,有效的提高了跟踪精准度MOTA和HOTA,以及可以大幅减少ID切换,提高了识别效率和跟踪速度。
-
公开(公告)号:CN118781436B
公开(公告)日:2024-11-15
申请号:CN202411248679.6
申请日:2024-09-06
Applicant: 中南大学
IPC: G06V10/764 , G06V10/44 , G06V10/77 , G06V10/762 , G06V10/82 , G06N3/045 , G06T7/00
Abstract: 本发明公开了一种基于深度学习的病理图像分类方法,包括获取已有的病理图像并预处理构建训练数据集;基于Vision Transformer网络构建病理图像分类初始模型并训练得到病理图像分类模型;采用病理图像分类模型,进行实际的病理图像分类。本发明还公开了一种包括所述基于深度学习的病理图像分类方法的成像方法。本发明基于Vision Transformer网络构建病理图像分类初始模型,并采用该模型进行训练和实际的病理图像分类;因此本发明不仅能够实现病理图像的分类,而且可靠性更高,精确性更好,通用性也更好。
-
公开(公告)号:CN117972053A
公开(公告)日:2024-05-03
申请号:CN202410118365.8
申请日:2024-01-29
Applicant: 中南大学
IPC: G06F16/332 , G06F16/33 , G06N20/00 , G06N3/0499 , G06N3/084
Abstract: 本发明公开了一种基于视觉语言大模型的图像问答数据获取方法,包括获取图像数据集,并针对图像进行编码处理,获取图像嵌入;按照设定格式针对设定的提示数据进行编码处理,获取对应的提示嵌入;采用图像嵌入和提示嵌入,通过大语言模型,获取问答数据对和对应的预测概率向量;采问答数据对和对应的预测概率向量,通过指令评估器,获取问答数据对的评估得分;采用获取的问答数据对和真实问答数据对,通过计算交叉熵损失函数,优化大语言模型;采用评估得分和交叉熵损失函数,优化指令评估器;采用无问答数据标注的图像数据集,通过优化后的大语言模型和优化后的指令评估器,获取标注结果的图像问答数据;本发明方法的性能提升、效率增加、准确性增强。
-
公开(公告)号:CN117932104A
公开(公告)日:2024-04-26
申请号:CN202410118368.1
申请日:2024-01-29
Applicant: 中南大学
IPC: G06F16/583 , G06N3/045 , G06N3/0464 , G06N3/08 , G06N3/096 , G06V10/774 , G06V10/82 , G06V10/762 , G06V10/74
Abstract: 本发明公开了一种基于多尺度协作学习的通用物体检索方法,包括获取图像数据集,并针对得到的图像数据集进行预处理;构建多尺度分组协作学习检索模型;采用预处理后得到的图像数据集,训练、并优化构建的多尺度分组协作学习检索模型,获得最终的多尺度分组协作学习检索模型;采用构建的最终的多尺度分组协作学习检索模型,针对待检索的物体图片进行推理测试,完成检索处理;本发明方法利用分割一切模型提取图片中包括的潜在物体,通过分组协作度量学习对提取出的物体学习嵌入编码表示,再设计目标函数训练出一个通用物体检索的特征提取与编码模型;本发明方法的图像表示效果提高、检索效果增强、准确率提升。
-
公开(公告)号:CN119066178A
公开(公告)日:2024-12-03
申请号:CN202411299895.3
申请日:2024-09-18
Applicant: 中南大学
IPC: G06F16/332 , G06F40/30 , G06N5/04 , G06V30/148 , G06V10/82 , G06V30/19
Abstract: 本发明公开了一种用于富文本图像问答的视觉语言大模型训练方法,包括确定视觉语言大模型并获取训练数据集;在训练数据集中选择若干富文本图像数据并获取文本信息和描述信息;采用大语言模型得到带有推理过程的问答数据对;在训练数据集选择若干问答数据对并结问答数据对构建混合训练数据集;设计视觉语言大模型训练的损失函数;采用混合训练数据集,根据损失函数完成对待训练的视觉语言大模型的训练。本发明还公开了一种实现所述用于富文本图像问答的视觉语言大模型训练方法的系统,以及包括了所述用于富文本图像问答的视觉语言大模型训练方法的富文本图像问答方法。本发明能够实现视觉语言大模型的训练,而且可靠性更高,综合性能更好。
-
-
-
-
-