一种基于分割传播的共分割结果修正方法

    公开(公告)号:CN103606143A

    公开(公告)日:2014-02-26

    申请号:CN201310413872.6

    申请日:2013-09-11

    Inventor: 李宏亮 孟凡满

    Abstract: 本发明提供一种基于分割传播的共分割结果修正方法,包括将共分割结果分为正确的分割结果集合及错误的分割结果集合;选择待修正的错误分割图像I′j;求当前错误分割图像I′j对应的全局谱MG;求当前错误分割图像I′j对应的局部谱ML;步骤6基于全局谱和局部谱获取当前的错误分割图像I′j对应的前景谱MU为:MU=αML+(1-α)MG;获取了当前的错误分割图像I′j的前景谱MU后,再对该前景谱MU进行分割,获取修正后的共分割结果。本发明通过全局和局部传播使得修正方法的自适应能力强,修正结果准确。

    一种基于特征点定位的人脸卡通画生成方法

    公开(公告)号:CN103456010A

    公开(公告)日:2013-12-18

    申请号:CN201310392715.1

    申请日:2013-09-02

    Abstract: 本发明提供一种基于特征点定位的人脸卡通画生成方法,包括:获取输入图像的特征点,所述特征点包括具有标志性的面部轮廓点;对输入图像中的眼睛、眉毛、鼻子分别进行重叠分块;在人脸图像块库中为所有分块寻找最佳匹配块,各最佳匹配块对应在卡通图像块库的卡通块即为找到的卡通匹配块;将卡通匹配块合成为完整的器官块,按照特征点的位置将这些器官放到输入图像的相应位置;按照特征点的位置将面部轮廓与嘴巴放到输入图像的相应位置;将头发部分放到输入图像的相应位置;对卡通化后的图像进行上色,生成最终的人脸卡通画。本发明利用特征点对输入图像进行分块,从而寻找出最佳匹配块合成完整器官,能够较快、较好地接近真实人脸。

    用于高性能视频编码HEVC的帧间预测编码单元选择方法

    公开(公告)号:CN103327327A

    公开(公告)日:2013-09-25

    申请号:CN201310216553.6

    申请日:2013-06-03

    Inventor: 李宏亮 熊健

    Abstract: 本发明公开了一种用于HEVC的帧间预测编码单元选择方法,属于视频编码技术。本发明的技术方案为:构建当前帧间预测编码单元CU的金字塔运动散度PMD:基于运动矢量估计,求取当前CU、将当前CU均分得到的4个子块的运动散度,记为PMD;选取当前CU的参考CU:在当前CU的已编码CU近邻中,基于对应的PMD,根据欧式距离获取最相似的l个参考CU,所述参考CU的尺度与当前CU的尺度相同;基于l个参考CU的分割标识符,确定当前CU的分割标识符的取值:若l个参考CU的分割标识符均相同,则当前CU的分割标识符等于参考CU的分割标识符;否则,基于率失真代价确定当前CU的分割标识符。本发明简单而高效,在保证编码质量的前提下有效降低了HEVC帧间预测的时间复杂度。

    基于显著度信息的行人检测方法

    公开(公告)号:CN102682287A

    公开(公告)日:2012-09-19

    申请号:CN201210113196.6

    申请日:2012-04-17

    Inventor: 李宏亮 邵枭虎

    Abstract: 本发明提供一种利用基于显著度信息的行人检测方法,包括线下训练步骤、线上检测步骤;线上检测步骤:计算待检测的图像的显著图;从图像中提取出检测子窗口,并根据显著图计算检测子窗口对应的显著度;计算检测子窗口中相应特征,利用级联分类器对检测子窗口中相应特征进行检测,同时将根据该检测子窗口对应的显著度为级联分类器分配调整系数。本发明在现有AdaBoost分类器的基础上,引入了显著度信息作为行人检测的辅助信息,参与到图像识别的过程中。大多数情况下,行人较之周围环境在颜色和形状、轮廓方面有很大的不同,利用子窗口的显著度信息修正分类器的检测结果,可有效地提高检测率、降低误检率。

    基于频域的低景深图像分割方法

    公开(公告)号:CN102663748A

    公开(公告)日:2012-09-12

    申请号:CN201210083536.5

    申请日:2012-03-27

    Inventor: 李宏亮 陈天堂

    Abstract: 本发明提供基于频域的低景深图像分割方法,利用低景深图像中对焦对象包含的高频分量较多,而模糊区域包含的高频分量较小的特性,基于频域来进行低景深图像分割处理。本发明使用均值滤波器对原始图像的频域进行平滑从而得到近似完全模糊的图像的幅度谱,即使得经平滑处理后的幅度谱近似背景区域的幅度谱。当原始低景深图像的幅度谱减去经平滑处理后的幅度谱之后,就能得到对焦对象的高频差分幅度谱,再将对焦对象的高频差分幅度谱变换回空间域就能得到能够定位对焦对象的对焦图。对焦图为灰度图像,其中亮色的区域指示出图像的对焦对象,暗色的区域指示出图像的模糊背景。

    一种基于对比学习与多模态对齐的视觉问答方法

    公开(公告)号:CN115481277B

    公开(公告)日:2025-04-08

    申请号:CN202211167934.5

    申请日:2022-09-23

    Abstract: 该发明公开了一种基于对比学习与多模态对齐的视觉问答方法,属于视觉问答领域,该方法在分布不平衡的视觉问答数据集下实现鲁棒的视觉问答。现有的基于数据增强的鲁棒视觉问答方法往往基于反事实样本增强,并把反事实样本作为数据增广添加入训练中,但并未在特征和预测层次中构建区分反事实样本的过程,未深入挖掘样本之间的关系。本发明提出了基于对比学习与多模态对齐的视觉问答方法来解决视觉问答中的语言偏见问题,通过在特征和预测层面进行对比学习来降低模型的复杂度,提高视觉问答模型的泛化能力,从而实现在语言偏见场景下鲁棒的视觉问答。

    一种基于信息丢失机制的自监督连续学习方法

    公开(公告)号:CN115952851B

    公开(公告)日:2024-10-01

    申请号:CN202211375805.5

    申请日:2022-11-04

    Abstract: 本发明提出了一种基于信息丢失机制的自监督连续学习方法,包括:(1)一种基于信息丢失的无监督连续学习框架,以促使模型在连续任务上仅学习重要的特征表示;(2)一种基于自监督学习范式的InfoDrop损失项,以帮助模型在测试阶段去除Infodrop机制后,依旧能够提取到测试样本的重要特征表示。此外,本发明提出的无监督连续学习框架可以和大部分的连续学习策略同时使用。通过丢弃不重要的图像信息,使得模型仅关注对重要的图像信息的特征表示,以缓解模型容量的限制,在不需要引入历史任务的样本或者历史模型的参数信息情况下,提升了自监督模型的性能。

    一种基于双偏置校准学习的低成本图像质量评价方法

    公开(公告)号:CN117437211B

    公开(公告)日:2024-07-30

    申请号:CN202311546553.2

    申请日:2023-11-20

    Abstract: 该发明公开了一种基于双偏置校准学习的低成本图像质量评价方法,属于图像处理领域的图像质量评估(Image Quality Assessment,IQA)领域。本发明创建了一个名为门控双偏置校准(GDBC)的模块,将双偏置表示为两个参数未知的潜在变量,包括LC‑MOS和LA‑MOS之间的主观偏置以及从LC‑MOS和LA‑MOS学习到的IQA模型之间的模型偏置;通过基于期望最大化的迭代优化,联合估计双偏置的参数,并通过门控双偏置校准(GDBC)模块自适应地抑制LC‑MOS的误导;对IQA数据集的理论分析和广泛实验,验证了所提出的GDBC方法的有效性,当每张图像可用的意见分数很少时,比如最少一人标注时,该方法仍然保证了最先进的性能。

    一种基于高动态多层语义编码的视频描述生成方法

    公开(公告)号:CN118247704A

    公开(公告)日:2024-06-25

    申请号:CN202410327726.X

    申请日:2024-03-21

    Abstract: 该发明公开了一种基于高动态多层语义编码的视频描述生成方法,视频描述生成领域。本发明通过利用transformer结构强大的语义特征提取与编码能力,在视频帧级别上获得更丰富的视觉语义特征,并设计并行串行相结合的特征编码结构,挖掘帧内网格对象关系语义信息以及帧间动态变化语义信息。同时,设计多层特征注意力的编码结构,进行关键帧视觉特征的筛选与融合,降低无效帧对特征编码的干扰,进一步增强在高动态场景下的视频语义信息的编码能力,有效地提升视频描述生成的准确性。

    一种基于开放世界多模态记忆学习的视频描述生成方法

    公开(公告)号:CN117911919A

    公开(公告)日:2024-04-19

    申请号:CN202410019053.1

    申请日:2024-01-05

    Abstract: 该发明公开了一种基于开放世界多模态记忆学习的视频描述生成方法,属于图像处理领域,特别是图像描述特征的生成方法。本发明对基于transformer的编解码器架构进行了精心修改,增加了一些独特设计的模块。同时,还设计了细粒度灵敏度选择,以自适应地选择与新任务正相关的旧模型知识。在细节层面继承旧知识,然后在新任务的全局基础上进行训练,最终在新旧任务之间做出相对最佳的权衡。接下来,提出了两阶段知识蒸馏法(TsKD)来约束新旧任务的部分阶段性特征。在MSR‑VTT数据集上的实验表明,与其他经典的类增量学习方法相比,我们的方法取得了显著的性能提升,解决了视频描述生成中连续输入造成的灾难性遗忘,可以有效缓解学习新任务时对旧知识的记忆遗忘。

Patent Agency Ranking