图像处理方法及装置
    72.
    发明公开

    公开(公告)号:CN119399024A

    公开(公告)日:2025-02-07

    申请号:CN202411050172.X

    申请日:2024-08-01

    Abstract: 本申请涉及一种图像处理方法及装置,所述方法包括:获取原始图像以及针对所述原始图像的需求表述;对所述原始图像进行切块处理,得到多个局部图像块,其中,每个所述局部图像块为所述原始图像中相应的局部区域;对所述原始图像进行分辨率调整,得到目标图像,其中,所述目标图像的分辨率与每个所述局部图像块的分辨率一致;对多个所述局部图像块、所述目标图像以及所述需求表述进行处理,得到所述需求表述对应的答案表述。如此采用对原始图像进行切块的手段可以扩大处理高分辨率图像的能力,可以实现对高分辨率图像进行很好的处理。

    一种针对医疗多模态大模型的视觉语言特征精细对齐方法

    公开(公告)号:CN119357443A

    公开(公告)日:2025-01-24

    申请号:CN202411381995.0

    申请日:2024-09-30

    Abstract: 本发明涉及人工智能技术领域,提供了一种针对医疗多模态大模型的视觉语言特征精细对齐方法,方法包括:用人工智能大模型对医疗专家知识文本特征进行深度学习和语义理解,生成问答对指令;提取医疗专家知识视觉特征,转化为问答对指令;用问答对指令对医疗多模态大模型进行训练;用人工智能大模型生成医疗图文问答对指令;为医疗多模态大模型引入强化学习,利用医疗图文问答对指令,实现视觉语言特征精细对齐。本发明提出了全自动地生成高质量医疗多模态指令数据的方法,使医疗多模态大模型在各种医学应用中提供准确可靠的输出内容。数据生成的全流程无需人工标注,节省了人力与时间成本。同时减少了模型推理幻觉,提升模型性能。

    基于多模态大模型的手机截屏文本内容问答对生成方法

    公开(公告)号:CN119169640A

    公开(公告)日:2024-12-20

    申请号:CN202411271334.2

    申请日:2024-09-11

    Abstract: 本发明涉及自然语言处理技术领域,提供了一种基于多模态大模型的手机截屏文本内容问答对生成方法。方法包括:提取图片文本内容,利用多模态大模型生成手机截屏图片的文本内容描述,获取和图片中文本有关的内容信息;将手机截屏图片和生成的文本内容描述作为多模态大模型的输入,构建指令驱动多模态大模型生成关于手机截屏图片文本内容的问答对;利用生成的图片文本内容和生成的问答对结合构建指令,生成的问答对进行筛选。本发明利用多模态大模型和大语言模型自动处理手机屏幕截屏的流程,能高效生成高质量问答对训练数据,来帮助提升多模态大模型在移动端数字文本理解任务中的性能。

    用于工业场景的细小微弱缺陷分割方法

    公开(公告)号:CN114863098B

    公开(公告)日:2024-07-19

    申请号:CN202210397331.8

    申请日:2022-04-15

    Abstract: 本发明公开了一种用于工业场景的细小微弱缺陷分割方法。所述方法包括以下步骤:利用深度卷积神经网络特征编码器对RGB图像进行多尺度特征提取来适应不同尺度的缺陷;特征解码器对特征编码器提取的多尺度图像特征进行融合上采样以尽可能保留细节信息,得到高分辨率高区分力的图像特征图;基于融合后的图像特征图,采用分类器对图像进行逐像素二分类,将图像中所有像素划分为正常像素和缺陷像素两类。本方法提出了一种将正常像素与缺陷像素损失平衡的目标函数,使模型更有效学习到细小微弱缺陷特征,大幅减少了对工业场景下细小微弱缺陷的漏检,实现了更准确的缺陷像素级分割。

    基于扩散模型的三维点云目标检测方法与装置

    公开(公告)号:CN116863426A

    公开(公告)日:2023-10-10

    申请号:CN202310843628.7

    申请日:2023-07-10

    Abstract: 本发明涉及一种基于扩散模型的三维点云目标检测方法:获取点云数据并进行体素化和数据增强;将体素化后的数据送入体素编码器,转换为稠密鸟瞰图视角的二维稠密特征;在鸟瞰图视角下的标注框送入基于扩散模型的候选框生成器中返回产生的噪声框和时间步水平;在二维特征上裁剪对应特征并送入检测解码器进行预测;优化损失函数,进行迭代训练直至模型收敛;利用训练好的模型进行三维目标检测。本发明通过利用扩散模型生成候选框,在推理时能直接使用从高斯分布中采用的随机框作为候选,避免手工经验式设计锚框尺寸,让检测解码器更加鲁棒,能够适应不同噪声水平的输入并得到检测结果。本发明还提供了相应的基于扩散模型的三维点云目标检测装置。

    一种无监督人群计数方法、装置及存储介质

    公开(公告)号:CN116363595A

    公开(公告)日:2023-06-30

    申请号:CN202310387316.X

    申请日:2023-04-07

    Abstract: 本发明公开了一种无监督人群计数方法、装置及存储介质,方法包括将第一输入图像裁剪为图像块,并获取图像块的粗粒度文本;将图像块输入第一图像编码器,将粗粒度文本输入第一文本编码器,生成第一相似度矩阵,根据第一相似度矩阵和第一区分度类别相似度,筛选出第一目标类别的图像块;获取第二目标类别的图像块的细粒度文本,并输入第二文本编码器,生成第二相似度矩阵,并根据第二相似度矩阵和第二区分度类别相似度,筛选出第二目标类别的图像块,并输入第二图像编码器,将计数文本输入第三文本编码器,生成目标相似矩阵,根据目标相似矩阵和计数文本的相似度,获取图像的人群数量。本发明不需要任何人工标签,极大减少了标注成本。

    一种基于多尺度自适应随机森林的激光雷达检测人腿方法

    公开(公告)号:CN111444769B

    公开(公告)日:2022-07-01

    申请号:CN202010116963.3

    申请日:2020-02-25

    Inventor: 周瑜 白翔

    Abstract: 本发明公开了一种基于多尺度自适应随机森林的激光雷达检测人腿方法,用于从2D激光雷达点云中检测出行人腿部。与传统的检测人腿的方法不同,该方法能够鲁棒地处理由于2D激光雷达数据的不稳定导致分类器检测能力下降的问题,同时也能够处理2D激光雷达数据的多尺度特性对检测的影响。首先,通过聚类算法将2D激光雷达点云聚类成多个点簇;其次,从每一个点簇中提取多维特征构成特征向量;进一步,将该特征向量输入分类器,分类器输出该点簇是人腿的置信度。该方法是针对2D激光雷达下进行人腿检测任务所提出的一种新颖的检测方法,其实现简单,易于扩展,具有较高的计算效率和检测准确度,能够部署在低成本机器人上,具有很强的实际应用价值。

Patent Agency Ranking