-
公开(公告)号:CN119942066A
公开(公告)日:2025-05-06
申请号:CN202411938991.8
申请日:2024-12-26
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06V10/25 , G06V10/44 , G06V10/77 , G06V10/80 , G06V10/764 , G06V10/766 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N5/04
Abstract: 本发明提供物体检测方法、模型训练方法、装置、设备及介质,物体检测包括待检测的图像输入到图像特征提取器;图像特征提取器提取的图像特征和高斯白噪声输入到扩散模型中;扩散模型输出隐向量,隐向量输入到自编码器的解码器中;解码器输出与隐向量相应的物体检测结果;物体检测模型训练包括自编码器训练和图像特征提取器与扩散模型联合训练。本发明的物体检测方法,将变长/无序/连续离散混杂的矩形框与类别信息变换为定长/有序/抗噪的隐向量;本发明所提供层次化的自编码器结构,在保持隐向量空间良好性质的同时,尽量压缩向量维度,提升了物体检测方法的速度和精度。
-
公开(公告)号:CN118887375B
公开(公告)日:2025-04-29
申请号:CN202411347904.1
申请日:2024-09-26
Applicant: 中国科学院自动化研究所
IPC: G06V10/22 , G06V10/26 , G06V10/764 , G06V10/82
Abstract: 本发明提供一种数据处理方法、装置、设备、存储介质及程序产品,应用于数据处理技术领域。该方法包括:获取待处理图像;将所述待处理图像输入单图文模型得到对应的文本描述信息,将所述待处理图像输入图像分割模型得到所述待处理图像中的对象类别信息;将所述文本描述信息和所述对象类别信息输入大语言模型,生成多对象关联问答信息,所述多对象关联问答信息包括图像理解信息和对象位置信息;对所述多对象关联问答信息中的对象进行图像回填,得到第一图文数据;将所述待处理图像和所述多对象关联问答信息输入奖励模型,得到检查项分数;根据所述检查项分数确定是否将所述第一图文数据确定为多模态训练数据。
-
公开(公告)号:CN119515652A
公开(公告)日:2025-02-25
申请号:CN202411322083.6
申请日:2024-09-23
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06T1/00 , G06V10/764 , G06N3/006
Abstract: 本申请提供一种基于多模态智能体的通用数据治理系统、方法、电子设备、存储介质、程序产品。基于多模态智能体的通用数据治理方法包括S1:定义并实现数据采集、数据清洗、数据标注、数据存储工具集;S2:设计任务Prompt且输入到多模态智能体中;S3:多模态智能体根据治理任务和要求,生成治理计划并综合使用工具链完成数据治理任务。通过本发明的数据治理系统和数据治理方法,简化工作流程;各个团队只需关注开发和维护自己的工具,无需关心整个流程的复杂性,实现任务的解耦;多模态智能体能够灵活选择和切换不同的工具,工具越多,系统的解决问题能力越强;适用于各种数据治理场景,不受具体行业和应用限制,具有较强的通用性。
-
公开(公告)号:CN119323300A
公开(公告)日:2025-01-17
申请号:CN202411306469.8
申请日:2024-09-19
Applicant: 中铁建设集团有限公司 , 中国科学院自动化研究所
IPC: G06Q10/063 , G06Q50/08 , G06N5/022 , G06N3/0455 , G06T3/04 , G06T11/60 , G06V30/422 , G06N5/04
Abstract: 本发明公开了一种建筑施工方案多模型管理系统及其方法,归属于建筑施工管理的技术领域。该系统基于建筑施工方案自然语言处理模型由四个子系统构成:施工行业多模态专业知识问答系统、施工行业专业文档编制系统、施工行业多模态检索系统和施工方案内容审核系统。其中施工行业专业文档编制系统采用多模态扩散大模型技术,由此建立的建造图像生成系统,能智能化地响应用户输入的文本需求,自动生成与之匹配的建筑施工图像,或对用户上传的建筑图像进行风格转换,以创造出满足特定需求的建筑图像,为用户提供即时的建筑建造参考图纸,通过一键生成图像的功能,大幅降低用户在制图时的工作量,显著提升建筑建造方案撰写阶段的工作效率。
-
公开(公告)号:CN119169339A
公开(公告)日:2024-12-20
申请号:CN202411050317.6
申请日:2024-08-01
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/44 , G06V10/75 , G06F18/2431 , G06F18/22 , G06N3/045 , G06N3/0464
Abstract: 本发明提供一种多标签图像分类方法、装置、设备、存储介质及程序产品,应用于图像处理技术领域。该方法包括:获取待分类图像的高分辨率特征图,所述待分类图像中包括至少两个物体类别;确定所述待分类图像的至少两个物体类别的像素掩码,将所述像素掩码映射到所述高分辨率特征图上进行掩码平均操作,得到目标图像特征;将包含类别属性描述与类别名称的文本特征与所述高分辨率特征图进行交互处理,得到包含视觉信息的目标文本特征;将所述目标图像特征与所述目标文本特征进行匹配,以确定所述待分类图像的类别标签。
-
公开(公告)号:CN119128798A
公开(公告)日:2024-12-13
申请号:CN202411183055.0
申请日:2024-08-27
Applicant: 中国科学院香港创新研究院人工智能与机器人创新中心 , 中国科学院自动化研究所
Abstract: 本发明提供一种基于联合生成式预训练的大语言模型的训练方法及装置,获取医疗图像以及描述文本,通过视觉编码器进行编码,得到特征图;针对特征图中的每个像素编码,从多模态大语言模型的原始统一码本中,查询像素编码的相似编码,得到码本图以及量化特征图;获取查询指示图,对原始统一码本进行相似编码筛选,得到筛选更新码本。最后通过多模态大语言模型的模型码本进行衰减更新,得到训练更新码本,并基于所述训练更新码本训练所述多模态大语言模型。通过本申请,克服现有技术中医疗领域的从视觉信息到文本信息的映射学习变得复杂且困难、且信息整合不够精确,导致多模态大语言模型在医疗领域适用性和应用效果受到限制的缺陷。
-
公开(公告)号:CN119027861A
公开(公告)日:2024-11-26
申请号:CN202411507920.2
申请日:2024-10-28
Applicant: 中国科学院自动化研究所
IPC: G06V20/40 , G06F40/205 , G06F40/30 , G06N3/042 , G06N3/0464 , G06N3/08 , G06N5/022 , G06V10/82 , G06V20/70 , G06F16/335 , G06F16/35
Abstract: 本发明提供一种基于开放词汇的视频异常检测方法、装置以及电子设备,应用于视频异常检测技术领域,其中,包括:对区域视频数据进行特征提取,得到视觉信息与文本信息;对视觉信息进行图像编码,得到帧级视觉特征;确定帧级视觉特征的局部时间依赖关系与全局时序依赖关系,得到序列时序特征;对增强文本信息进行文本编码,得到标签文本特征;基于帧级视觉特征、序列时序特征以及标签文本特征,确定区域视频数据的已知类别异常与未见类别异常;对已知类别异常进行特定类别分类,得到特定异常行为;对未见类别异常进行无类别检测,得到未见类别异常行为,通过本申请能够提高视频数据中异常行为检测的准确率。
-
公开(公告)号:CN119004099A
公开(公告)日:2024-11-22
申请号:CN202410992374.X
申请日:2024-07-23
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06F18/213 , G06N3/084
Abstract: 本发明提供一种多模态大模型的指令微调数据的选择方法及装置,方法包括:训练一个基于人工反馈的奖励模型并将奖励模型的输出得分最大化作为目标优化多模态大模型,以得到多模态数据集的第一评分公式,奖励模型的输出得分用于对多模态大模型输出结果的质量进行评估;根据低秩适配器和Adam优化器调整第一评分公式,得到第二评分公式;根据第二评分公式,从多模态数据集中获取代表性数据集;从代表性数据集中进行多样性选择,获取既具有代表性,同时具有多样性的多模态大模型的指令微调数据。通过上述方法,使得多模态大模型在进行特定任务训练时,能够获取到高质量的微调数据,提升训练速率。
-
公开(公告)号:CN119003741A
公开(公告)日:2024-11-22
申请号:CN202411465874.4
申请日:2024-10-21
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06N3/0455 , G06N3/084 , G06N5/04 , G06F18/213 , G06F18/22 , G06F18/25
Abstract: 本发明提供一种基于自我问答的可信多模态大模型推理方法及装置,涉及人工智能技术领域,方法包括:获取多模态数据,并进行特征提取得到对应的多模态令牌特征;获取针对多模态数据的提问问题,将提问问题与多模态令牌特征输入到多模态大模型中进行第一问答;并将得到的第一回答文本以及提示词输入到多模态大模型进行第二问答,得到第二回答文本,确定第一回答文本与第二回答文本的相似度得分,当相似度得分大于相似度阈值时,将第一回答文本作为提问问题的回答文本。通过本申请,克服大语言模型在进行问答时过于依赖问答知识库,且生成的回答文本准确性和可信度低的缺陷。
-
公开(公告)号:CN118864876A
公开(公告)日:2024-10-29
申请号:CN202410860540.0
申请日:2024-06-28
Applicant: 中国科学院自动化研究所
IPC: G06V10/42 , G06V10/44 , G06F18/213 , G06V10/764 , G06F40/186 , G06F40/166 , G06F18/25 , G06N3/0464 , G06F18/22
Abstract: 本发明提供一种基于图文预训练模型的零样本异常检测方法、装置,包括:对待检测样本图像进行图像特征提取,得到待检测样本图像的局部特征和全局特征;调用大语言模型生成针对待检测样本图像的正常描述文本和异常描述文本;将正常描述文本、异常描述文本分别与手工编写的文本模板、自适应学习的文本模板结合,对结合后的文本进行文本特征提取处理,得到正常文本特征和异常文本特征;基于局部特征、正常文本特征和异常文本特征进行特征交互,得到异常分数图;基于异常分数的最大值、全局特征、正常文本特征和异常文本特征判断待检测样本图像中是否存在异常。本发明可以在无需样本图像中的物品类别先验数据的情况下有效完成零样本异常检测任务。
-
-
-
-
-
-
-
-
-