-
公开(公告)号:CN118691467A
公开(公告)日:2024-09-24
申请号:CN202410688411.8
申请日:2024-05-30
Applicant: 之江实验室
IPC: G06T3/4053 , G06T3/4046 , G06T3/4038 , G06T5/77 , G06T5/60 , G06V20/70 , G06V10/77 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0455
Abstract: 本发明提供一种图像超分辨率的加速方法、系统、装置及存储介质,本发明识别和利用图像中不同区域的信息量差异,进而对这些区域采取差异化的处理策略,通过一种算法识别出图像中信息量丰富的区域和信息量较少的区域,对于识别出的不同区域,本发明采用不同的超分辨率恢复策略,对于信息量丰富的区域,可以采用更为精细的算法,以确保在放大过程中细节的准确恢复;而对于信息量较少的区域,则可以采用更快但可能略微粗糙的算法,以节省处理时间;在保证图像超分质量的前提下,本发明通过智能选择处理策略,显著提高了图像超分辨率的处理速度。
-
公开(公告)号:CN118612509A
公开(公告)日:2024-09-06
申请号:CN202410688412.2
申请日:2024-05-30
Applicant: 之江实验室
IPC: H04N21/44 , H04N21/431 , H04N21/488
Abstract: 本发明公开了一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法,包括:用于对原视频和图像数据进行文本字幕消除和低质量图像筛选过滤的视频图像预处理模块,用于向开源预训练的文本做引导的视频生成扩散模型内注入实体位置的条件信息的文本、实体位置控制的视频生成扩散模型训练微调模块,用于调整视频生成模型的噪声初始化的文本、实体位置控制的视频生成扩散模型优化模块,文本、实体位置控制的视频生成扩散模型推理加速模块和文本、实体位置控制的视频生成扩散模型编辑调整模块。本发明能够解决模型生成质量差、生成效率低、模态信息单一和未充分挖掘扩散模型生成过程中特征间联系的技术问题。
-
公开(公告)号:CN118898239B
公开(公告)日:2025-01-21
申请号:CN202411385815.6
申请日:2024-09-30
Applicant: 之江实验室
IPC: G06F40/166 , G06F40/151 , G06N20/00 , G06N3/006
Abstract: 本说明书公开了一种任务执行方法、装置、存储介质及电子设备,服务器可以通过将用户输入的问题文本和大语言模型输出的原始答案文本重定义为逻辑转换后的命题,并利用多个智能体之间的反馈作为观测状态来对逻辑转换后的命题进行验证,进而可以将验证结果作为下一轮大语言模型进行任务执行时的提示语句,与问题文本进行拼接后再次输入到大语言模型中,以提升大语言模型再次输出的答复文本的准确性。
-
公开(公告)号:CN119047352A
公开(公告)日:2024-11-29
申请号:CN202411553120.4
申请日:2024-11-01
Applicant: 之江实验室
IPC: G06F30/27 , G06F17/18 , G06N7/01 , G06F111/08
Abstract: 本说明书提供的一种任务执行方法、装置、存储介质以及电子设备,可以基于预先存储的多元高斯分布函数,确定第一分布,基于弦积分正向模型和第一分布,确定第二分布,并响应于获取到的操作指令,根据第一分布和第二分布,执行贝叶斯反演操作,以得到第三分布。通过获取目标等离子体的实际弦积分测量信号以及部分位置处的实际点测量值,以根据第三分布、实际弦积分测量信号以及实际点测量值,确定目标等离子体的各位置处对应的实际物理场信息,并根据实际物理场信息,进行任务执行。
-
公开(公告)号:CN119007088A
公开(公告)日:2024-11-22
申请号:CN202411478721.3
申请日:2024-10-22
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/764 , G06V10/774
Abstract: 本说明书公开了一种模型训练及轨迹预测方法、装置、介质及设备。包括获取历史视频数据,确定轨迹预测的目标物。根据目标物在历史视频数据中各帧图像对应的坐标,确定目标物的初始坐标序列。根据预设的扰动参数以及初始坐标序列,确定扰动后的初始坐标序列。针对每轮训练,将扰动后的初始坐标序列输入待训练的预测模型,得到预测模型输出的预测坐标序列,并根据预测坐标序列与目标物实际坐标序列之间的第一差异,确定第一损失值,以及根据初始坐标序列和扰动后的初始坐标序列,确定第二损失值。根据第一损失值与第二损失值,确定该轮训练对应的综合损失值,以根据该轮训练对应的综合损失值,对待训练的预测模型进行训练。
-
公开(公告)号:CN118861824B
公开(公告)日:2024-11-22
申请号:CN202411102196.5
申请日:2024-08-12
Applicant: 之江实验室
IPC: G06F18/241 , G21B1/25 , G06F18/27 , G06N3/0464 , G06N3/0455 , G06N3/08 , G01N21/73
Abstract: 本说明书公开了一种诊断代理模型的训练方法、装置、介质及电子设备,该方法包括:将等离子体的第一测量信号输入待训练的诊断代理模型的嵌入层,确定第一信号向量。将第一测量信号对应的测量光路的第一弦积分信息输入嵌入层,确定第一位置向量。将等离子体的第一物理边界输入嵌入层,确定第一区域向量。将第一信号向量、第一位置向量和第一区域向量输入待训练的诊断代理模型的编码层,确定第一编码特征。根据第一编码特征,确定第一预测剖面。根据第一预测剖面和等离子体的二维物理参数剖面,对待训练的诊断代理模型进行训练,可使得诊断代理模型更好地学习测量信号和物理信息之间的内在联系和规律,从而精确地推断出等离子体的物理参数。
-
公开(公告)号:CN118898239A
公开(公告)日:2024-11-05
申请号:CN202411385815.6
申请日:2024-09-30
Applicant: 之江实验室
IPC: G06F40/166 , G06F40/151 , G06N20/00 , G06N3/006
Abstract: 本说明书公开了一种任务执行方法、装置、存储介质及电子设备,服务器可以通过将用户输入的问题文本和大语言模型输出的原始答案文本重定义为逻辑转换后的命题,并利用多个智能体之间的反馈作为观测状态来对逻辑转换后的命题进行验证,进而可以将验证结果作为下一轮大语言模型进行任务执行时的提示语句,与问题文本进行拼接后再次输入到大语言模型中,以提升大语言模型再次输出的答复文本的准确性。
-
公开(公告)号:CN118691951A
公开(公告)日:2024-09-24
申请号:CN202410679654.5
申请日:2024-05-29
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多模型混合的文本视频一致性评估方法和装置,属于文本视频一致性评估技术领域,包括:从文本标注中获取视频问答对,从视频数据中获取目标运动轨迹,将视频问答对、目标运动轨迹和视频数据输入微调多模态大模型,得到预测回答,根据预测回答和视频问答对得到第一得分;将视频数据通过基于强化学习的图像字幕提取模型得到预测文本,根据预测文本与文本标注计算第二得分;对第一得分和第二得分加权融合,得到最终得分,根据最终得分所在质量等级与人工评估所在质量等级的相符情况实现对文本视频一致性的评估。本发明通过融合两个模型在语义特征空间和视觉特征空间的文本视频一致性得分,提高了文本视频一致性评估的准确率。
-
公开(公告)号:CN118759921A
公开(公告)日:2024-10-11
申请号:CN202410825029.7
申请日:2024-06-25
Applicant: 之江实验室
IPC: G05B19/042
Abstract: 本发明公开了一种基于对抗技能嵌入和分层强化学习的战斗机飞行控制方法,其设计了基于对抗生成式算法和深度强化学习算法共同组成的对抗技能嵌入学习框架,利用专家飞行数据由AI算法自动学习底层控制指令到宏机动技能的映射,并通过复用这些宏机动技能,显著降低下游空战任务的学习难度,大幅压缩强化学习算法的收敛时间,提升空战智能体的博弈性能,并赋予了空战智能体更高的灵活性和快速迁移能力,为空战智能体的实用化训练和部署探明了一条新技术路径。
-
公开(公告)号:CN118678159A
公开(公告)日:2024-09-20
申请号:CN202410688397.1
申请日:2024-05-30
Applicant: 之江实验室
IPC: H04N21/472 , H04N21/44 , G06T5/50 , G06T5/60 , G06T5/70 , G06V20/40 , G06V10/26 , G06V10/62 , G06V10/80 , G06V10/75 , G06V10/82 , G06N3/0455
Abstract: 本发明公开了一种基于掩码的视频局部物体编辑方法及装置,该方法包括:首先对视频分割成帧,得到图像序列;在第一帧中选取并优化目标物体的掩码,利用模板匹配和预训练的图像分割模型追踪并优化后续帧中的物体掩码;通过预训练的SD模型对第一帧进行编码并引入高斯噪声;根据给定文本描述,使用SD模型去噪并生成编辑后的图像;最后,通过迭代处理和解码过程完成整帧图像的编辑,并在处理后续帧时融合前几帧的编辑结果和注意力信息。由于该方法将视频编辑建立在图像编辑的基础之上,可以利用现有预训练文本图像模型的能力,不需要重新训练模型。此外在处理后续每一帧时都融合了前几帧的注意力信息,保证了编辑后视频的连续性。
-
-
-
-
-
-
-
-
-