-
公开(公告)号:CN120032368A
公开(公告)日:2025-05-23
申请号:CN202510093778.X
申请日:2025-01-21
Applicant: 华中科技大学同济医学院附属协和医院
IPC: G06V20/69 , G06V10/25 , G06V10/26 , G06V10/44 , G06V10/46 , G06V10/764 , G06V10/766 , G06V10/774 , G06V10/776 , G06V10/82 , G06N3/0464 , G06N3/084 , G06N3/0985
Abstract: 本申请涉及一种基于目标检测技术的结直肠癌图片上肿瘤出芽自动识别方法、装置及设备,涉及计算机视觉与医学图像处理技术领域,该方法包括:通过对包含结直肠癌肿瘤出芽的全切片图片进行图片分割,得到补丁图片,然后利用YOLOv8目标检测模型对补丁图片进行特征识别,得到与肿瘤出芽相关的细微特征,利用最佳权重函数对细微特征进行肿瘤出芽标识预测,得到候选区域和各候选区域对应的预测类别,然后在此基础上,从候选区域中选取存在肿瘤出芽的检测目标,再依据检测目标进行位置识别,并根据检测目标对应的识别到的肿瘤出芽坐标信息,确定最终的肿瘤出芽识别结果,实现了补丁图片上肿瘤出芽的自动识别,保证肿瘤出芽识别结果的准确性和高效性。
-
公开(公告)号:CN119399024A
公开(公告)日:2025-02-07
申请号:CN202411050172.X
申请日:2024-08-01
Applicant: 珠海金山办公软件有限公司 , 华中科技大学
IPC: G06T3/4053 , G06N3/0455 , G06V10/80 , G06V10/82
Abstract: 本申请涉及一种图像处理方法及装置,所述方法包括:获取原始图像以及针对所述原始图像的需求表述;对所述原始图像进行切块处理,得到多个局部图像块,其中,每个所述局部图像块为所述原始图像中相应的局部区域;对所述原始图像进行分辨率调整,得到目标图像,其中,所述目标图像的分辨率与每个所述局部图像块的分辨率一致;对多个所述局部图像块、所述目标图像以及所述需求表述进行处理,得到所述需求表述对应的答案表述。如此采用对原始图像进行切块的手段可以扩大处理高分辨率图像的能力,可以实现对高分辨率图像进行很好的处理。
-
公开(公告)号:CN119357443A
公开(公告)日:2025-01-24
申请号:CN202411381995.0
申请日:2024-09-30
Applicant: 华中科技大学
IPC: G06F16/9032 , G06F40/30 , G06N5/04 , G16H50/70
Abstract: 本发明涉及人工智能技术领域,提供了一种针对医疗多模态大模型的视觉语言特征精细对齐方法,方法包括:用人工智能大模型对医疗专家知识文本特征进行深度学习和语义理解,生成问答对指令;提取医疗专家知识视觉特征,转化为问答对指令;用问答对指令对医疗多模态大模型进行训练;用人工智能大模型生成医疗图文问答对指令;为医疗多模态大模型引入强化学习,利用医疗图文问答对指令,实现视觉语言特征精细对齐。本发明提出了全自动地生成高质量医疗多模态指令数据的方法,使医疗多模态大模型在各种医学应用中提供准确可靠的输出内容。数据生成的全流程无需人工标注,节省了人力与时间成本。同时减少了模型推理幻觉,提升模型性能。
-
公开(公告)号:CN119169640A
公开(公告)日:2024-12-20
申请号:CN202411271334.2
申请日:2024-09-11
Applicant: 华中科技大学
Abstract: 本发明涉及自然语言处理技术领域,提供了一种基于多模态大模型的手机截屏文本内容问答对生成方法。方法包括:提取图片文本内容,利用多模态大模型生成手机截屏图片的文本内容描述,获取和图片中文本有关的内容信息;将手机截屏图片和生成的文本内容描述作为多模态大模型的输入,构建指令驱动多模态大模型生成关于手机截屏图片文本内容的问答对;利用生成的图片文本内容和生成的问答对结合构建指令,生成的问答对进行筛选。本发明利用多模态大模型和大语言模型自动处理手机屏幕截屏的流程,能高效生成高质量问答对训练数据,来帮助提升多模态大模型在移动端数字文本理解任务中的性能。
-
公开(公告)号:CN114863098B
公开(公告)日:2024-07-19
申请号:CN202210397331.8
申请日:2022-04-15
Applicant: 华中科技大学
IPC: G06V10/26 , G06V10/40 , G06V10/80 , G06V10/764 , G06V10/82 , G06F18/2415 , G06N3/0464 , G06N3/0455 , G06N3/0985
Abstract: 本发明公开了一种用于工业场景的细小微弱缺陷分割方法。所述方法包括以下步骤:利用深度卷积神经网络特征编码器对RGB图像进行多尺度特征提取来适应不同尺度的缺陷;特征解码器对特征编码器提取的多尺度图像特征进行融合上采样以尽可能保留细节信息,得到高分辨率高区分力的图像特征图;基于融合后的图像特征图,采用分类器对图像进行逐像素二分类,将图像中所有像素划分为正常像素和缺陷像素两类。本方法提出了一种将正常像素与缺陷像素损失平衡的目标函数,使模型更有效学习到细小微弱缺陷特征,大幅减少了对工业场景下细小微弱缺陷的漏检,实现了更准确的缺陷像素级分割。
-
公开(公告)号:CN117333883A
公开(公告)日:2024-01-02
申请号:CN202311298972.9
申请日:2023-10-07
Applicant: 华中科技大学
Abstract: 本发明提出了一种基于深度学习和表意文字描述序列的多种类汉字识别方法,包括以下步骤:首先利用汉字表意文字描述序列,生成已有近九万种汉字以及随机生成不存在的汉字的图像数据,然后将图像数据经过大量数据增强后通过残差网络,并采用改进后的交叉损失函数进行训练,最后对于输入图片进行多种类汉字的识别。本发明通过输入种类繁多的汉字图像以及不断随机生成不存在的新汉字图像,利用深度的残差网络和改进后的交叉熵损失函数进行训练,这样的训练方式不仅增强了对生僻字的识别能力,还实现了对隶定字的有效区分。
-
公开(公告)号:CN116863426A
公开(公告)日:2023-10-10
申请号:CN202310843628.7
申请日:2023-07-10
Applicant: 华中科技大学
IPC: G06V20/56 , G06V10/80 , G06V10/52 , G06V10/764 , G06V10/766 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本发明涉及一种基于扩散模型的三维点云目标检测方法:获取点云数据并进行体素化和数据增强;将体素化后的数据送入体素编码器,转换为稠密鸟瞰图视角的二维稠密特征;在鸟瞰图视角下的标注框送入基于扩散模型的候选框生成器中返回产生的噪声框和时间步水平;在二维特征上裁剪对应特征并送入检测解码器进行预测;优化损失函数,进行迭代训练直至模型收敛;利用训练好的模型进行三维目标检测。本发明通过利用扩散模型生成候选框,在推理时能直接使用从高斯分布中采用的随机框作为候选,避免手工经验式设计锚框尺寸,让检测解码器更加鲁棒,能够适应不同噪声水平的输入并得到检测结果。本发明还提供了相应的基于扩散模型的三维点云目标检测装置。
-
公开(公告)号:CN116363595A
公开(公告)日:2023-06-30
申请号:CN202310387316.X
申请日:2023-04-07
Applicant: 华中科技大学
IPC: G06V20/52 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/088
Abstract: 本发明公开了一种无监督人群计数方法、装置及存储介质,方法包括将第一输入图像裁剪为图像块,并获取图像块的粗粒度文本;将图像块输入第一图像编码器,将粗粒度文本输入第一文本编码器,生成第一相似度矩阵,根据第一相似度矩阵和第一区分度类别相似度,筛选出第一目标类别的图像块;获取第二目标类别的图像块的细粒度文本,并输入第二文本编码器,生成第二相似度矩阵,并根据第二相似度矩阵和第二区分度类别相似度,筛选出第二目标类别的图像块,并输入第二图像编码器,将计数文本输入第三文本编码器,生成目标相似矩阵,根据目标相似矩阵和计数文本的相似度,获取图像的人群数量。本发明不需要任何人工标签,极大减少了标注成本。
-
公开(公告)号:CN115901777A
公开(公告)日:2023-04-04
申请号:CN202211370869.6
申请日:2022-11-03
Applicant: 华中科技大学 , 武汉精测电子集团股份有限公司 , 武汉精立电子技术有限公司
IPC: G01N21/88
Abstract: 本发明涉及光学检测技术领域,提供了一种透明材质缺陷成像对比度增强的方法与装置。使用竖直条纹结构光激励序列对待检测样本进行一级检测,根据一级检测的结果,确认待检测样本的缺陷类型;根据一级检测确认的待检测样本的缺陷类型,选择与之适配的用于二级检测的结构光激励序列,并完成当前待检测样本的缺陷检测。本发明针对不同类型潜在缺陷,设计不同的结构光激励图案,通过结构光发生装置,显示对应图案形成不同结构光激励条件,再利用工业相机采集缺陷成像,以达到各种类型缺陷成像对比度都可显著提升的目的。
-
公开(公告)号:CN111444769B
公开(公告)日:2022-07-01
申请号:CN202010116963.3
申请日:2020-02-25
Applicant: 华中科技大学
IPC: G06V40/10 , G06V10/774 , G06V10/762 , G06V10/764 , G06V10/70 , G06K9/62 , G06N3/00
Abstract: 本发明公开了一种基于多尺度自适应随机森林的激光雷达检测人腿方法,用于从2D激光雷达点云中检测出行人腿部。与传统的检测人腿的方法不同,该方法能够鲁棒地处理由于2D激光雷达数据的不稳定导致分类器检测能力下降的问题,同时也能够处理2D激光雷达数据的多尺度特性对检测的影响。首先,通过聚类算法将2D激光雷达点云聚类成多个点簇;其次,从每一个点簇中提取多维特征构成特征向量;进一步,将该特征向量输入分类器,分类器输出该点簇是人腿的置信度。该方法是针对2D激光雷达下进行人腿检测任务所提出的一种新颖的检测方法,其实现简单,易于扩展,具有较高的计算效率和检测准确度,能够部署在低成本机器人上,具有很强的实际应用价值。
-
-
-
-
-
-
-
-
-