一种基于AI反馈的文本生成图像优化方法、装置及介质

    公开(公告)号:CN119784894A

    公开(公告)日:2025-04-08

    申请号:CN202411733171.5

    申请日:2024-11-29

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于AI反馈的文本生成图像优化方法、装置及介质,涉及文本生成图像优化技术领域。所述方法通过引入大语言模型来作为一种人类偏好注释的可替代方案,利用AI反馈来近似人类偏好,从而摆脱人类反馈方式的高昂贵人工依赖,总体包括两个过程:1)近似偏好,使用大语言模型来近视人类偏好,产生排名对;2)对齐,将更加精美的图像与简单文本进行对齐,期望文本生成图像模型来生成更高质量的图像。本发明提供的一种基于AI反馈的文本生成图像优化方法、装置及介质,解决了人类反馈优化方法的昂贵人工成本和微调开销的问题。

    一种基于点标注指引的混合监督目标检测方法及装置

    公开(公告)号:CN117953206B

    公开(公告)日:2024-08-20

    申请号:CN202410342956.3

    申请日:2024-03-25

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于点标注指引的混合监督目标检测方法及装置,涉及计算机视觉技术领域。所述方法包括:构建点注意力模块,所述点注意力模块包括位置编码层、映射层和交叉注意力层,所述位置编码层用于将输入的点的坐标进行位置编码,再通过映射层得到对应的点特征向量;交叉注意力层用于将骨干网络输出的每层的特征图与映射层输出的点特征向量进行交叉注意力计算,以实现利用点标注去指导模型关注重要的区域;将所述点注意力模块插入骨干网络和Transformer网络/CNN网络之间得到混合监督目标检测模型;混合监督目标检测模型训练时,将图片和对应的点标注信息作为输入,在混合监督目标检测模型训练完成后,只需输入图片即可实现目标检测。

    视觉检索中的紧凑视觉描述子深度神经网络生成模型

    公开(公告)号:CN108920727A

    公开(公告)日:2018-11-30

    申请号:CN201810878981.8

    申请日:2018-08-03

    Applicant: 厦门大学

    Abstract: 视觉检索中的紧凑视觉描述子深度神经网络生成模型,涉及图像检索。构建Fisher layer网络;构建分组和二分类模块;基于极大边界条件的损失函数的训练;对于图像库图像和查询图像,首先抽取图像的局部特征,然后用训练好的网络结构对图像的局部特征进行聚合和二值嵌入获得图像的二值编码,根据查询图像的二值编码在图像库中匹配返回相似度高的图像作为粗匹配出候选集,再对候选集使用局部特征进行几何一致性检验进行精确匹配并返回最终查询结果。使用灵活的Fisher网络聚合图像的局部特征生成更高效的全局特征Fisher向量;同时用分组与二分类模块对Fisher向量进行二值编码,得到紧凑的全局二值特征。

    基于CRBM和Fisher网络的移动视觉搜索框架

    公开(公告)号:CN108108770A

    公开(公告)日:2018-06-01

    申请号:CN201711493995.X

    申请日:2017-12-31

    Applicant: 厦门大学

    Abstract: 基于CRBM和Fisher网络的移动视觉搜索框架,涉及移动端的图像检索。包括:1)连续受限玻尔兹曼机网络构建与训练;2)Fisher layer网络构建与训练。在聚合全局紧凑二值特征算法中采用非线性降为算法CRBM寻找非高斯分布的局部特征本质的子空间特征信息,同时采用基于Fisher的网络结构聚合Fisher Vector,获得更加高效的全局特征;采用标量量化算法和比特自适应算法获得紧凑的自适应的特征,能够根据移动端网络带宽的不同自适应的选择传输的图像特征信息长度;检索阶段使用全局特征粗匹配出候选集和使用局部特征进行几何一致性检验进行精确匹配,从而适应大规模图像检索任务。

    一种基于反对抗推理的模型鲁棒性提升方法

    公开(公告)号:CN115630302A

    公开(公告)日:2023-01-20

    申请号:CN202211307189.X

    申请日:2022-10-24

    Applicant: 厦门大学

    Abstract: 一种基于反对抗推理的模型鲁棒性提升方法,涉及对抗防御领域。提出在模型的推理阶段进行反对抗的防御方法。对抗样本生成在获得样本梯度以后,朝着损失函数最大化方向做添加扰动的操作。在样本输进网络前,添加一个与生成对抗样本时相反方向的扰动。即在深度神经网络模型前引入一个反对抗的模块,该模块通过生成对抗样本的反向梯度,去除对抗样本所携带的扰动信息,降低对抗样本的影响,提升模型最终结果准确性。为同时抵御黑盒和白盒攻击,尽可能多的提升模型鲁棒性,引入SND方法,通过两者结合,最大程度提升模型性能,达到最优结果;所需计算资源不多,时间影响小;对原始干净样本的分类准确率几乎没有任何影响;具有非常简便的可操作性。

    一种基于卷积神经网络模型的暴恐视频检测方法

    公开(公告)号:CN106778590B

    公开(公告)日:2020-07-17

    申请号:CN201611128390.6

    申请日:2016-12-09

    Applicant: 厦门大学

    Abstract: 一种基于卷积神经网络模型的暴恐视频检测方法,涉及计算机视觉和机器学习。包括以下步骤:1)深度神经网络模型的训练;2)在线暴恐视频检测。利用深度学习模型组合低层特征,形成更加抽象的高层表示属性或特征,以发现数据的分布式特征表示。通过该模型能够获取描述能力强的视频图像特征描述子。该特征描述子涵盖了视频图像从低到高各个层次的特征信息,从而大大提高了暴恐视频检测的准确率和召回率。通过少量样本来训练深度卷积网络来获得优秀的检测性能。对恐怖图片检测准确率达99%以上,召回率达98%以上。对于恐怖视频检测准确率达95%,召回率达99%。训练过程无需人工参与,自动根据少量样本生成海量数据。

    一种中心排序损失及弱监督物体定位的细粒度检索方法

    公开(公告)号:CN110334235A

    公开(公告)日:2019-10-15

    申请号:CN201910349620.9

    申请日:2019-04-28

    Applicant: 厦门大学

    Abstract: 一种中心排序损失及弱监督物体定位的细粒度检索方法,涉及中心排序损失和弱监督物体定位的融合。给定标好的细粒度图像-标签对集合,将图像-标签对集合划分为训练照片样本集、训练画像样本集和测试照片样本集;利用训练集合训练一个神经网络;当计算好损失函数后,为了对神经网络进行参数更新;对神经网络进行训练之后,通过CNN高层语义信息的物体粗定位,然后沿着第三个维度方向进行加和操作,最后大于平均值的位置置为1,小于平均值的位置置为0;根据得到的图像蒙版,当图像蒙版值为1时,定义这个位置所包含的物体为前景物体,反之,当值为0时,定义这个位置背景;对于给定的物体定位分割,重新抽取更加具有区分度的特征。

    基于条件生成对抗网络的汉字字体生成方法

    公开(公告)号:CN109064522A

    公开(公告)日:2018-12-21

    申请号:CN201810877295.9

    申请日:2018-08-03

    Applicant: 厦门大学

    Abstract: 基于条件生成对抗网络的汉字字体生成方法,涉及汉字字体生成。使用中心骨架提取及相干点漂移方法提取汉字位图的笔画信息;用条件对抗生成网络生成新风格的笔画。扩宽了连宙辉提取笔画方法,将笔画提取从无粗细信息的手写字体扩展到有笔画粗细信息的汉字位图;在字体生成上,提出的方法具有生成结果多样、训练过程简单、无需特殊先验知识、耗费人力时间少的优点。

    行人重识别系统的实现方法

    公开(公告)号:CN108596010A

    公开(公告)日:2018-09-28

    申请号:CN201711493983.7

    申请日:2017-12-31

    Applicant: 厦门大学

    Abstract: 行人重识别系统的实现方法,涉及行人重识别技术。包括以下步骤:1)对监控视频进行离线建模,具体包括行人检测和行人特征提取;2)在线检索:在进行在线检索时,共进行两个排序,首先对于每个视频中的行人按照同检索目标的相似度进行排序,然后对于所有检索视频计算一个包含检索目标的可能性,将视频进行排序。在实际应用中采用将深度特征和手工特征相结合的方法。采用融合分类损失和三元组损失两种损失函数的网络结构进行深度特征学习,两种损失函数的融合充分利用了数据集的标签信息以及图像对的相似性信息,使得在数据集较小的情况下也可以获得有效的具有区分性的行人特征。采用改进的三元组损失函数,训练效果更优。

Patent Agency Ranking