-
公开(公告)号:CN118096944B
公开(公告)日:2024-07-23
申请号:CN202410495172.4
申请日:2024-04-24
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06T11/60 , G06N3/0455 , G06N3/08 , G06N3/0464
Abstract: 本发明涉及计算机视觉技术领域,提供一种服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品,构建方法包括:确定初始模型、原始样本图像和引导提示,引导提示表征各类别服饰的服饰特征;基于原始样本图像包含的服饰类别,对原始样本图像进行服饰特征去除,得到无服饰特征图;基于无服饰特征图和引导提示,对初始模型进行参数迭代,得到服饰编辑模型,服饰编辑模型用于对待编辑图像中各类服饰进行编辑。本发明提供的服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品,能够针对人物图像中各种类别的服饰进行编辑,从而提高用户体验感和满意度。
-
公开(公告)号:CN117423108A
公开(公告)日:2024-01-19
申请号:CN202311273241.9
申请日:2023-09-28
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06V20/70 , G06V10/40 , G06V10/80 , G06V10/82 , G06F18/25 , G06F40/289 , G06F40/30 , G06F16/35 , G06N3/0455
Abstract: 本发明提供一种指令微调多模态大模型的图像细粒度描述方法及系统,涉及计算机技术领域,方法包括:获取目标图像对应的第一向量序列,目标图像对应的第一向量序列是通过对目标图像对应的第二向量序列进行编码后得到的,目标图像对应的第二向量序列是根据从所述目标图像中提取到的高级语义信息得到的;根据第一向量序列和第一提示模板,获取目标图像的细粒度描述文本,第一提示模板用于提供对目标图像进行细粒度描述所需的指令信息。本发明能够基于少量对图像进行细粒度描述所需的指令信息及承载图像的高级语义信息的向量序列,精准地识别和描述图像中重要目标的属性和特征,实现对图像的细粒度描述,提供更丰富及更具体的图像信息。
-
公开(公告)号:CN117422037A
公开(公告)日:2024-01-19
申请号:CN202311134048.7
申请日:2023-09-04
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06F30/392 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及模拟芯片设计技术领域,提供一种模拟芯片自动化布局模型训练方法及自动化布局方法,该训练方法同步对各样本布局智能体对应的策略网络进行训练,可以实现模拟芯片自动化布局模型的中心化训练,提升强化学习收敛效率和稳定性。该训练方法可以得到配置于各目标布局智能体内的模拟芯片自动化布局模型,实现去中心化布局决策,可以提升后续模拟芯片布局效率及布局效果,能够在不需要大量的布局数据的前提下,在秒级的时间内,得到一个性能与人工布局性能相当的布局结果,从而实现自动化的布局,进而有助于后续模拟芯片布线,为模拟芯片的快速生产及批量化应用提供了便利。
-
公开(公告)号:CN116959487A
公开(公告)日:2023-10-27
申请号:CN202310931489.3
申请日:2023-07-25
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
Abstract: 本发明公开了一种基于说话人特征的鉴伪模型训练方法,包括以下步骤,S1、提取输入音频中的第一特征与第二特征;S2、将第一特征输入说话人特征提取网络,得到说话人特征;将第二特征输入鉴伪特征提取网络,得到鉴伪特征;S3、将说话人特征和鉴伪特征进行概率加权得到融合特征;S4、将融合特征输入分类器以得到输入音频的真伪结果;S5、建立损失函数,重复步骤S1~S4,以对鉴伪模型进行迭代训练;并且在训练过程中冻结说话人提取网络的所有权重,而仅更新鉴伪特征提取网络的权重。该方法生成的鉴伪模型具有良好的鲁棒性和泛化性,且标注成本低。
-
公开(公告)号:CN118800205A
公开(公告)日:2024-10-18
申请号:CN202410665534.X
申请日:2024-05-27
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G10H1/00 , G10L13/08 , G06F16/65 , G06F16/632 , G06F16/683 , G06F40/30 , G06N3/0455
Abstract: 本发明涉及人工智能技术领域,提供一种文本与音频对齐模型构建方法、文本生成音乐的方法、装置、设备、介质和程序产品,构建方法包括:获取初始模型,样本音频以及与样本音频对应的描述文本;基于初始模型中的音频编码模块,提取样本音频的音频语义特征;基于初始模型中的文本编码模块,提取描述文本的文本语义特征;基于音频语义特征与文本语义特征之间的差异,对初始模型分两个阶段进行参数迭代,将第二阶段参数迭代得到的模型作为文本与音频对齐模型。本发明提供的文本与音频对齐模型构建方法、文本生成音乐的方法、装置、设备、介质和程序产品,能够在有限的文本与音频对数据基础上,实现文生音乐的多语言应用能力。
-
公开(公告)号:CN118096944A
公开(公告)日:2024-05-28
申请号:CN202410495172.4
申请日:2024-04-24
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06T11/60 , G06N3/0455 , G06N3/08 , G06N3/0464
Abstract: 本发明涉及计算机视觉技术领域,提供一种服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品,构建方法包括:确定初始模型、原始样本图像和引导提示,引导提示表征各类别服饰的服饰特征;基于原始样本图像包含的服饰类别,对原始样本图像进行服饰特征去除,得到无服饰特征图;基于无服饰特征图和引导提示,对初始模型进行参数迭代,得到服饰编辑模型,服饰编辑模型用于对待编辑图像中各类服饰进行编辑。本发明提供的服饰编辑模型构建方法、编辑方法、装置、设备、介质和产品,能够针对人物图像中各种类别的服饰进行编辑,从而提高用户体验感和满意度。
-
公开(公告)号:CN117690415B
公开(公告)日:2024-04-30
申请号:CN202410143148.4
申请日:2024-02-01
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
Abstract: 本发明提供一种音频描述信息生成方法、装置、电子设备及存储介质,属于信息处理技术领域,所述方法包括:获取文本信息转化的音频数据以及所述音频数据的元数据;基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。本发明可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联,使得生成的描述信息更具表现力和音频元素的表达能力,大大提升了生成音频描述信息的质量,比人工标注效率更高,可以很好地适用于大规模数据集的应用场景。
-
公开(公告)号:CN117690415A
公开(公告)日:2024-03-12
申请号:CN202410143148.4
申请日:2024-02-01
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
Abstract: 本发明提供一种音频描述信息生成方法、装置、电子设备及存储介质,属于信息处理技术领域,所述方法包括:获取文本信息转化的音频数据以及所述音频数据的元数据;基于所述音频数据、所述元数据和第一提示信息,生成所述音频数据的描述信息;所述第一提示信息是基于所述元数据确定的。本发明可以在生成描述信息时更全面、准确地捕捉音频与文本之间的关联,使得生成的描述信息更具表现力和音频元素的表达能力,大大提升了生成音频描述信息的质量,比人工标注效率更高,可以很好地适用于大规模数据集的应用场景。
-
公开(公告)号:CN117422041A
公开(公告)日:2024-01-19
申请号:CN202311132966.6
申请日:2023-09-04
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06F30/394 , G06N3/126
Abstract: 本发明涉及模拟芯片设计技术领域,提供一种模拟芯片自动化布线模型训练方法及自动化布线方法,该训练方法中将目标遗传算法得到的布线路径信息作为深度Q网络的回放经验,可以提高深度Q网络的预测能力。而且,将整个模拟芯片的网表信息分解成各个子网络信息,并利用各样本电路图子网络训练得到模拟芯片自动化布线模型,如此可以缩小目标遗传算法以及深度Q网络的搜索范围,可以进一步提高深度Q网络的训练效率。该训练方法得到的模拟芯片自动化布线模型,可以适用于电路图子网络范围内的布线,搜索范围小,可以快速得到最优布线方案,可以提高布线效率,为模拟芯片的快速生产及批量化应用提供了便利。
-
公开(公告)号:CN117036519A
公开(公告)日:2023-11-10
申请号:CN202310936436.0
申请日:2023-07-26
Applicant: 武汉人工智能研究院 , 中国科学院自动化研究所
IPC: G06T11/00 , G06T11/40 , G06F16/535 , G06F16/532 , G06N20/00 , G06N3/092
Abstract: 本发明公开了一种文生图多模态主动交互方法,该方法采用文生图的图文对构建方法所生成的名词列表,并补充更新所述的文生图的图文对构建方法所需的关键词库;该方法首先对反馈模式开关状态判断,当反馈模式关闭时,文生图模型直接根据用户输入的提示说法生成图片;当反馈模式开启时,文生图模型在根据用户输入的提示说法生成图片时附带反馈交互界面,用户通过反馈交互界面输入反馈信息,文生图模型根据反馈信息,以设定规则和顺序执行以下操作之中的一种或多种:针对当前提示说法生成改进信息、结合名词列表重新生成优化后的图片、结合名词列表更新关键词库、存储提示说法/生成图片/反馈信息、结束文生图会话。
-
-
-
-
-
-
-
-
-