一种基于分块卷积神经网络的细粒度图像分类方法

    公开(公告)号:CN111860672B

    公开(公告)日:2021-03-16

    申请号:CN202010738474.1

    申请日:2020-07-28

    Abstract: 一种基于分块卷积神经网络的细粒度图像分类方法,涉及细粒度图像识别技术领域,解决现有方法将原始图像平均分块后输入到卷积神经网络中用于细粒度图像分类,存在感受野限制较弱的问题,本发明不引入额外的参数与运算,在预测过程中保留通用卷积神经网络的高效性,不需要过大的感受野的特性将输入特征图进行分块,每块分别进行卷积操作后,再重新拼接,具有较强的限制性。本发明将卷积的感受野按需要进行限制,使网络更加关注局部区域的特征,更适合应用于细粒度图像分类任务。本发明所述的细粒度图像分类方法,在不引入更多参数的前提下,限制卷积层的感受野范围,使卷积神经网络能够寻找较小的有判别力的局部区域。

    一种基于不确定性估计的行人再识别方法

    公开(公告)号:CN112200093A

    公开(公告)日:2021-01-08

    申请号:CN202011091366.6

    申请日:2020-10-13

    Abstract: 本发明涉及一种基于不确定性估计的行人再识别方法,属于行人再识别技术领域,包括步骤:获取待识别的原始图像序列,原始图像序列中的每一帧原始图像均包含同一行人;将原始图像序列输入至利用基于不确定性估计的行人再识别模型训练方法训练得到的行人再识别模型中,计算输出集合;使用不确定性估计集合对输出集合进行排序,选择不确定性估计最高的Δ个输出的标号,获得标号集合和选定输出集合;将选定输出集合中的所有输出与数据库中的样本计算距离,并分别匹配出距离最小的图像作为行人再识别的检索结果。本发明能够同时抑制输入图像中的区域噪声和随机噪声,降低噪声对于行人再识别模型性能的影响,提高模型的稳定性,提升行人再识别的准确率。

    一种基于声乐特征的个性化歌曲推荐方法

    公开(公告)号:CN106095925B

    公开(公告)日:2018-07-03

    申请号:CN201610407547.2

    申请日:2016-06-12

    Abstract: 本发明实施例公开了一种基于声乐特征的个性化歌曲推荐系统。该方法包括如下步骤:特征提取步骤:提取歌唱数据的音域特征、速度特征和音色特征,其中音域特征包括绝对音域和相对音域,速度特征是每分钟节拍数,音色特征是梅尔频率倒谱系数训练的高斯混合模型。系统推荐步骤:将用户演唱片段用关键音匹配算法找到音乐库中的对应歌曲,进行音域适合度检测、歌曲适合度检测、歌手适合度检测。用提取的用户特征进行歌手推荐和歌曲推荐。利用本发明实施例,可以实现评价当前演唱歌曲是否适合用户演唱,并进一步推荐与用户声乐能力相匹配的歌手和适合用户演唱的歌曲。从用户演唱的角度出发,将传统的音乐推荐范围进行了推广,具有很高的实用价值。

    一种基于网络病毒传播模型的空气污染溯源方法

    公开(公告)号:CN105528753A

    公开(公告)日:2016-04-27

    申请号:CN201510924343.1

    申请日:2015-12-14

    CPC classification number: G06Q50/26

    Abstract: 本发明公开了一种基于网络病毒传播模型的空气污染溯源方法,包括步骤一、获取相关子图,步骤二、构造大气污染转移方程,步骤三、单点溯源分析,本发明的基于网络病毒传播模型的空气污染溯源方法,能够准确地按照时间要求寻找源头的空间位置,并且能得到源头的影响强度;本发明利用一定时空的污染物数据筛选出范围更小的相关区域,并且能够高效地得到溯源结果,时效性较强。

    一种基于全概率模型的多视点深度图增强方法

    公开(公告)号:CN104320649B

    公开(公告)日:2016-04-20

    申请号:CN201410612458.2

    申请日:2014-11-04

    Inventor: 马占宇 黄迪

    Abstract: 本发明实施例公开了一种基于全概率模型的多视点深度图增强方法。该方法包括如下步骤:图像预处理步骤:将像素矢量聚合为超像素矢量;颜色信息分类步骤:使用狄利克雷混合模型模拟超像素矢量分布,并运用变分贝叶斯方法估测模型参数,得出超像素矢量的概率密度函数,根据概率进行分类;深度信息分类和增强步骤:基于颜色信息分类结果,使用贝塔混合模型模拟深度图像素矢量分布,并运用变分贝叶斯方法估计模型参数,根据所得概率密度函数对深度图像素进行细分,将各像素深度值更新为所在类内深度均值,完成深度图增强。利用本发明实施例,能够得到层次更加清晰,结构更加紧凑的深度图,从而提高基于深度绘制的多视点图像合成质量,具有很大的实用价值。

    人脸图像超分辨率重建方法、装置

    公开(公告)号:CN119251049A

    公开(公告)日:2025-01-03

    申请号:CN202411093816.3

    申请日:2024-08-09

    Abstract: 本公开提出一种人脸图像超分辨率重建方法、装置,方法包括:对低分辨率人脸图像的初始面部特征进行N次下采样,任意一次下采样得到的面部特征是增强后的第一低频特征以及增强后的多个第一高频特征融合得到;对第N次下采样输出的面部特征进行N次上采样输出增强后的面部特征,任意一次上采样得到的面部特征是低频融合特征和增强后的多个第二高频特征反小波变换得到;融合初始面部特征与增强后的面部特征,得到低分辨率人脸图像重建后的人脸图像。本公开实施例能够在下采样时减少关键面部结构的损失,以及在上采样时获取额外特征以增强和完善面部轮廓,以解决重建人脸图像的面部轮廓失真问题。

    细粒度图像分类方法、装置、存储介质及终端

    公开(公告)号:CN113836338B

    公开(公告)日:2024-05-24

    申请号:CN202110834213.4

    申请日:2021-07-21

    Abstract: 本发明公开了一种细粒度图像分类方法,包括:获取待分类的目标图像;将目标图像输入预先训练的细粒度图像分类模型中;其中,预先训练的细粒度图像分类模型是基于基础网络与辅助网络训练生成的,辅助网络用来优化所述基础网络;输出目标图像对应的多个标签类别。采用本申请实施例,由于通过辅助网络优化基础网络,从而提升了基础网络的训练效果,同时使用了多分类器,引入了多级标签,实现了训练时特征的解耦,进一步降低了模型的学习难度,使得模型学习到了更多不同的特征,从而提升了模型分类的准确度。

    低资源的音频字幕生成方法、装置、电子设备及介质

    公开(公告)号:CN117809654A

    公开(公告)日:2024-04-02

    申请号:CN202311593526.0

    申请日:2023-11-27

    Abstract: 本申请公开了一种低资源的音频字幕生成方法、装置、电子设备及介质。通过应用本申请的技术方案,可以在一个包含语言编码器与音频编码器的多模态预训练模型中,首先利用样本量比较充足的文本数据,为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器,以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频‑字幕数据对的情况下,仍能取得较高模型性能的技术方案。

    音频信号内容分析方法、装置、设备及存储介质

    公开(公告)号:CN117594060A

    公开(公告)日:2024-02-23

    申请号:CN202311435217.0

    申请日:2023-10-31

    Abstract: 本申请提出一种音频信号内容分析方法、设备及存储介质,该方法包括:获取待处理的目标音频信号的目标音频特征;基于目标嵌入特征和目标音频特征,确定当前时间步的特征概率分布,目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征;基于特征概率分布从特征概率分布的多个潜在特征中选取当前时间步的目标潜在特征;基于多个时间步的目标词潜在特征和目标音频特征,生成目标音频信号对应的目标描述信息。本申请实施例实现了可以基于音频信号生成不同的描述信息。

    字幕的生成方法、装置、电子设备及介质

    公开(公告)号:CN117560551A

    公开(公告)日:2024-02-13

    申请号:CN202311023084.6

    申请日:2023-08-15

    Abstract: 本申请公开了一种字幕的生成方法、装置、电子设备及介质。通过应用本申请的技术方案,可以通过风格化控制模块辅助已有的图像字幕生成模型来为各个图像生成一个具备特定风格类别的字幕内容。具体来说,一方面可以通过风格控制模块的风格因子控制字幕生成模型来为图像选择一个更具有特定风格特征的词汇。以达到为不同用户输出其偏爱程度更高的字幕内容的目的。另一方面通过流利度因子来计算预测单词和前文已预测得到的词汇的相似性,并以此选择重复程度较低的单词,从而实现降低字幕出现重复单词的可能性,提升句子的流利度。

Patent Agency Ranking