跨模态视频检索方法、装置及电子设备

    公开(公告)号:CN118227831B

    公开(公告)日:2024-11-05

    申请号:CN202410644212.7

    申请日:2024-05-23

    Abstract: 本发明涉及视频检索技术领域,提供一种跨模态视频检索方法、装置及电子设备,方法包括:提取查询文本的隐式特征和词表特征;基于特征提取模型,得到各候选视频的隐式特征和各候选视频的词表特征;基于查询文本的隐式特征与各候选视频的隐式特征之间的相似度以及查询文本的词表特征与各候选视频的词表特征之间的相似度,确定查询文本对应的检索视频;特征提取模型的词表特征训练阶段以最小化样本视频的词表特征与样本描述文本的词表特征之间的差异为训练目标,联合训练阶段以样本视频的隐式特征与样本描述文本的隐式特征之间的相似度作为软标签,最小化学生预测结果与软标签之间的差异为训练目标。本发明能够提高跨模态视频检索能力。

    基于价格模式聚类学习的歧视定价识别方法以及装置

    公开(公告)号:CN118885942A

    公开(公告)日:2024-11-01

    申请号:CN202411357043.5

    申请日:2024-09-27

    Abstract: 本发明提供一种基于价格模式聚类学习的歧视定价识别方法以及装置,应用于人工智能领域,上述方法包括:获取包含歧视定价场景下的订单数据;针对类别数据、时间数据以及数值数据分别进行预处理,得到订单数据集;将非歧视定价子集输入至非歧视编码器,得到非歧视编码序列;将歧视定价子集输入至歧视编码器,得到歧视编码序列;将非歧视编码序列与歧视编码序列,分别输入至非歧视定价解码器与歧视定价解码器,得到非歧视预测价格与歧视预测价格;基于订单数据的真实价格分别与非歧视预测价格与歧视预测价格进行比较,得到用于表示真实价格为非歧视定价或歧视定价的定价识别结果。通过本发明能够实时对歧视定价行为进行准确识别。

    图像重建方法、模型训练方法、装置、设备、介质及产品

    公开(公告)号:CN118780985A

    公开(公告)日:2024-10-15

    申请号:CN202411259633.4

    申请日:2024-09-10

    Abstract: 本发明提供了一种图像重建方法、模型训练方法、装置、设备、介质及产品,可以应用于图像超分辨率重建领域。图像重建方法包括:对存在质量损失的退化图像进行特征提取,得到表征图像底层细节的底层图像特征和表征图像退化信息的隐式退化特征;利用隐式退化特征调节器分别对隐式退化特征进行通道级和空间级的扩展;将扩展后的隐式退化特征融入到底层图像特征中,分别得到融合了图像退化信息的通道图像特征和空间图像特征;将通道图像特征和空间图像特征进行特征融合并引入底层图像特征,以对退化图像的高频细节进行恢复;将进行细节恢复后得到的图像特征输入图像超分辨率模块中,输出重建的目标图像,其中,目标图像的分辨率高于退化图像。

    跨模态模型的训练方法、装置、设备和存储介质

    公开(公告)号:CN118535765A

    公开(公告)日:2024-08-23

    申请号:CN202411003383.8

    申请日:2024-07-25

    Abstract: 本发明涉及跨模态技术领域,提供一种跨模态模型的训练方法、装置、设备和存储介质,包括视频编码器提取第一视频特征,文本编码器提取第一文本特征以及文本掩码特征、同一词汇空间下的第二视频特征与第二文本特征、同一词汇空间下的第三视频特征与第三文本特征;基于第二视频特征与第二文本特征获取第一全局损失函数,基于第二视频特征与文本掩码特征获取第二全局损失函数;基于第一视频特征、第一文本特征以及感知器获取第一局部损失函数;基于第一视频特征、文本掩码特征以及感知器获取第二局部损失函数;基于第一全局损失函数、第二全局损失函数、第一局部损失函数、第二局部损失函数、掩码损失函数进行训练。实现缓解模态鸿沟的问题。

    NFT跨模态检索方法、装置及存储介质

    公开(公告)号:CN118520153A

    公开(公告)日:2024-08-20

    申请号:CN202410972733.5

    申请日:2024-07-19

    Abstract: 本发明提供一种NFT跨模态检索方法、装置及存储介质,涉及电数字数据处理技术领域,所述方法包括:获取用于检索的语义信息;将所述语义信息输入至NFT跨模态检索模型中,基于置信累加两阶段搜索算法获取与语义信息最为匹配的NFT检索结果,所述NFT跨模态检索模型是基于动态组件差分训练得到的。本发明提供的NFT跨模态检索方法、装置及存储介质,可以根据动态组件差分训练得到NFT跨模态检索模型,然后根据NFT跨模态检索模型通过置信累加两阶段搜索算法,从而能够根据用户输入的语义信息输出与之最为匹配的检索结果,可以提高NFT图像的检索精度。

    基于类别条件的人体动作生成模型的训练及动作生成方法

    公开(公告)号:CN118333135A

    公开(公告)日:2024-07-12

    申请号:CN202410388726.0

    申请日:2024-04-01

    Abstract: 本发明提供一种基于类别条件的人体动作生成模型的训练及动作生成方法,其中方法包括:获取噪声样本向量序列和动作类别标签,并对动作类别标签进行编码得到类别特征向量;将噪声样本向量序列和类别特征向量进行融合,得到融合向量;将融合向量输入至噪声预处理映射网络中,得到隐藏向量序列;将隐藏向量序列输入至生成对抗模型中的生成器中得到预测人体骨架序列;基于预测人体骨架序列,以及与预测人体骨架序列动作类别相同的真实人体骨架序列对生成对抗模型进行训练,将训练完成后的生成对抗模型作为人体动作生成模型。人体动作生成模型可以实现生成数据类别准确性与生成数据质量的平衡,实现类别条件控制的人体骨架序列数据的高质量生成。

    音视频内容风险识别方法、装置、电子设备和存储介质

    公开(公告)号:CN118296446A

    公开(公告)日:2024-07-05

    申请号:CN202410728250.0

    申请日:2024-06-06

    Abstract: 本发明提供一种音视频内容风险识别方法、装置、电子设备和存储介质,属于多媒体内容安全识别领域,该方法包括:构建多模态特征推理模型;构建风险样例知识库,所述风险样例知识库中包含至少一个风险样例分别对应的多模态特征向量,所述至少一个风险样例分别属于至少一种风险类别;将待识别音视频输入所述多模态特征推理模型,获得所述待识别音视频的多模态特征向量;将所述待识别音视频的多模态特征向量与所述风险样例知识库中的多模态特征向量进行相似度计算,并基于相似度输出所述待识别音视频的风险类别,可以提高风险内容识别的精准率和召回率。

    基于图学习的小样本图像识别方法及系统

    公开(公告)号:CN111598167B

    公开(公告)日:2023-04-07

    申请号:CN202010418929.1

    申请日:2020-05-18

    Abstract: 本发明涉及一种基于图学习的小样本图像识别方法及系统,所述图像识别方法包括:获取源域样本图像数据集;以各样本图像作为节点,建立无向带权图;基于特征生成模型提取各样本图像的基础特征向量;对各节点之间执行信息的传递和聚合,得到优化特征向量;基于优化特征向量,建立图像识别模型;根据所述优化特征向量,建立对比损失函数;采用随机梯度下降方法优化图像识别模型的参数直到对比损失函数收敛,以确定面向小样本图像的识别模型;根据面向小样本图像的识别模型,确定待测样本图像的所属类别。通过学习出来的识别模型在小样本场景下可以放大异类样本的类间差异,缩小同类样本的类内差异,极大提升了小样本识别的准确率。

    视频特征提取方法、装置及电子设备

    公开(公告)号:CN115311595A

    公开(公告)日:2022-11-08

    申请号:CN202210771422.3

    申请日:2022-06-30

    Abstract: 本发明提供一种视频特征提取方法、装置及电子设备,涉及视频处理技术领域,可以应用于视频特征提取的场景。该视频特征提取方法包括:获取视频图像和视频图像对应的音频数据;将音频数据转换为声谱图,得到声谱图像;将视频图像和声谱图像输入至视频特征提取模型,得到视频特征提取模型输出的视频特征;其中,视频特征提取模型是基于样本视频数据和对偶式对比学习模型对基础神经网络模型进行预训练得到的,对偶式对比学习模型用于对样本视频数据经基础神经网络模型处理后输出的第一多模态样本特征矩阵分别进行行维度和列维度上的对比学习。本发明提供的技术方案可以提高视频特征提取的准确性和泛化性。

Patent Agency Ranking