一种图像生成模型构建方法
    11.
    发明公开

    公开(公告)号:CN119478201A

    公开(公告)日:2025-02-18

    申请号:CN202411401149.0

    申请日:2024-10-09

    Abstract: 本发明提供了一种图像生成模型构建方法,用于生成具有高度复杂性和多样性图像,该方法包括:获取预设训练集,其中,多张图像与目标图像具有部分共同特征;构建初始图像生成模型,所述初始图像生成模型包含预训练图像生成模型、第一特征学习模块、第二特征学习模块,所述预训练图像生成模型包括编码模块、解码模块;模型训练步骤、采用预设训练集对初始图像生成模型进行多轮迭代训练以得到目标图像生成模型,其中,在迭代训练中保持预训练图像生成模型的参数不变,并采用异步优化的方式实现第一特征学习模块、第二特征学习模块的协同优化以优化图像生成模型。本发明提出的方法相较现有的方法,生成的图像具有更高的真实性和多样性。

    一种基于动态早退的图像描述生成模型及模型训练方法

    公开(公告)号:CN114743056A

    公开(公告)日:2022-07-12

    申请号:CN202210439734.4

    申请日:2022-04-25

    Abstract: 本发明提供一种基于动态早退的图像描述生成模型,包括:视觉编码器,用于提取图像的视觉特征,其包括多个依次串联的编码层;文本解码器,用于对视觉编码器输出的视觉特征进行解码并依次输出多个预测词汇表中的单词以组成图像的自然语言描述文本,其包括多个依次串联的解码层,每个解码层配置有一个动态早退决策模块和一个模仿学习网络;其中:所述每个动态早退决策模块用于在单词预测过程中根据预测词汇表中的单词预测概率判断当前预测是否需要提前退出、并在预测词汇表中单词的预测概率中的最大概率超过可信度阈值时输出该最大概率对应的单词;所述每个模仿学习网络用于根据输入模仿预测其对应解码层的输出隐含层状态向量。

    一种用于生成视频描述文本的系统和方法

    公开(公告)号:CN113784199A

    公开(公告)日:2021-12-10

    申请号:CN202111060036.5

    申请日:2021-09-10

    Abstract: 本发明提供的一种用于生成视频描述文本的系统,包括:视觉编码模块,用于对待处理的视频进行全局编码,得到全局视频特征,并利用视频分段信息和全局视频特征对相应的视频片段进行局部编码,得到各个视频片段中每个视频帧的视觉模态表征;以及字幕生成模块,用于对视觉模态表征进行嵌入处理,得到文本模态表征,并基于文本模态表征生成描述文本。根据该系统进行的视频描述的生成方法中,生成的描述文本不仅更加具有视觉准确性和视觉一致性,前后文本更加连贯。

    基于帧选择的视频内容描述方法和系统

    公开(公告)号:CN109409221A

    公开(公告)日:2019-03-01

    申请号:CN201811100828.9

    申请日:2018-09-20

    Abstract: 本发明涉及一种基于帧选择的视频内容描述方法,包括:以前馈神经网络构建筛选模型,该筛选模型根据视频帧的视觉丰富度和语义一致度对该视频帧进行筛选;构建用于对待描述视频的内容进行描述的描述模型;以训练数据对该筛选模型和该描述模型进行训练;通过该筛选模型在该待描述视频中选取描述帧;提取该描述帧的视觉特征并输入该描述模型,获得该待描述视频的描述语句。

    基于语义保持的跨模态内容检索方法和系统

    公开(公告)号:CN109284414A

    公开(公告)日:2019-01-29

    申请号:CN201811156579.5

    申请日:2018-09-30

    Abstract: 本发明涉及一种基于语义保持的跨模态内容检索方法,包括:以第一模态样本和第二模态样本的特征向量为结点分别构建第一特征图和第二特征图;提取所有样本的标签向量为结点构建语义图;获取每个结点的邻居结点;分别构建用于将第一模态样本和第二模态样本映射为隐含表示的第一映射函数和第二映射函数;对映射函数进行学习,近似最大化每个结点的邻居结点出现的似然,并使得每个隐含表示可以重建对应结点对应的标签信息;以第一映射函数将检索样本映射为检索隐含表示,并以第二映射函数将每个第二模态样本映射为目标隐含表示;获取检索隐含表示与每个目标隐含表示的距离,以所有小于检索阈值的距离对应的第二模态样本为检索结果。

    基于多模态信息融合与图聚类的跨媒体话题检测方法、装置

    公开(公告)号:CN103995804B

    公开(公告)日:2017-02-01

    申请号:CN201410203087.2

    申请日:2014-05-14

    Abstract: 本发明公开了一种基于多模态信息融合与图聚类的跨媒体话题检测方法及其装置,其中该方法包括:步骤一,进行文本信息、视频内容预处理;步骤二,进行文本融合及高层特征提取,获取文本信息相似度;步骤三,进行视频相似片段检测,获取视觉信息相似度;步骤四,根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度;步骤五,根据最终数据相似度进行图融合、图聚类,完成话题检测。该方法有效避免了对时间轴的硬量化带来的过分割与过生成的问题以及现有话题检测方法无法移植到来自不同媒体源的多模态数据的话题检测问题。(56)对比文件Qing Li等.User comments for newsrecommendation in forum-based socialmedia《.Information Science》.2010,第4929-4939页.Tianlong Chen等.An Effective Multi-Clue Fusion Approach for Web Video TopicDetection《.Proceedings of the 20th ACMinternational conference on Multimedia》.2012,第781-784页.

    大模型幻觉缓解方法、装置、存储介质

    公开(公告)号:CN119166770A

    公开(公告)日:2024-12-20

    申请号:CN202411183795.4

    申请日:2024-08-27

    Abstract: 本发明提出一种大模型幻觉缓解方法、装置、存储介质,该方法包含:接收给定的图像和提示文本作为输入,通过一大规模视觉语言模型生成多个文本样本;对比该多个文本样本中的不一致性,搜索出矛盾点,确定幻觉因素;生成针对该幻觉因素的问题;根据该问题进行问答,利用一视觉问答模型分析该图像内容,输出针对该问题的答案,且利用该答案修正该提示文本;利用修正后的提示文本,重新生成优化后的文本样本。该方法能够有效缓解大规模视觉语言模型产生的幻觉,提升大模型生成的效果。

    一种图学习装置构建方法及图学习方法

    公开(公告)号:CN118799703A

    公开(公告)日:2024-10-18

    申请号:CN202410883106.4

    申请日:2024-07-03

    Abstract: 本发明提供了一种图学习装置构建方法及图学习方法,所述图学习装置用于学习图数据以用于图分类、节点分类、节点回归、连边预测等图分析任务,包括:获取历史图数据及其对应的实际标签,所述标签为图真实分布或图节点类型分布,所述图数据包括多个图节点;构建包括公共状态空间构建模块、伪节点适应性调整模块、图节点局部更新模块、节点全局更新模块的初始图学习装置;采用历史图数据及其对应的标签将初始图学习装置训练至收敛,其中,在图学习装置训练过程中采用获得的预测标签与实际标签计算交叉熵损失并更新图学习装置的参数。本发提出的图学习装置可实现图学习过程与图结构解耦,并且有效降低图节点间特征传递的时间与空间复杂度。

Patent Agency Ranking