一种基于自监督预训练的场景图生成方法

    公开(公告)号:CN112989927A

    公开(公告)日:2021-06-18

    申请号:CN202110151201.1

    申请日:2021-02-03

    Inventor: 俞俊 余宙 李娉

    Abstract: 本发明公开了一种基于自监督预训练的场景图生成方法。本发明步骤如下:1、数据预处理及数据集的划分,2、使用训练好的目标检测网络对图像提取特征,3、构建目标的空间特征,4、构建自监督预训练网络模型,5、训练自监督预训练网络模型,6、构建自监督预训练和微调模型的场景图生成模型,7、训练场景图生成模型,8、网络预测值计算。本发明尤其是用于同时建模目标上下文和关系上下文在场景图生成的任务上取得了显著性的提升效果,超越了该任务上的大部分主流方法。并且本发明的基于自监督预训练的场景图生成方法在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。

    一种基于多模态低秩双线性池化的图像内容问答方法

    公开(公告)号:CN107480206A

    公开(公告)日:2017-12-15

    申请号:CN201710611041.8

    申请日:2017-07-25

    Inventor: 俞俊 余宙 项晨钞

    Abstract: 本发明公开了一种基于多模态低秩双线性池化的图像内容问答方法。本发明包括以下步骤:1、对图像和以自然语言描述的问题,答案文本进行数据预处理,2、多模态低秩双线性池化模型,进行特征融合。3、基于MFB池化模型和协同关注点模型的神经网络结构。4、模型训练,利用反向传播算法训练神经网络参数。本发明提出一种针对图像问答的神经网络模型,特别是提出一种图像问答领域中对图像-问题的跨媒体数据进行统一建模的方法,以及在图像和问题细粒度特征上学习“协同关注点”进行建模表达的网络结构,并且获得了目前在图像问答领域中的最好效果。

    基于图神经网络的机器生成稿件可解释评价方法及系统

    公开(公告)号:CN117236295B

    公开(公告)日:2024-12-31

    申请号:CN202311197701.4

    申请日:2023-09-15

    Abstract: 本发明公开了一种基于图神经网络的机器生成稿件可解释评价方法及系统,该方法包括:获取机器生成的多模态新闻稿件,对多模态新闻稿件内容进行编码,获取新闻稿件整体编码向量和新闻稿件要素编码向量;将新闻稿件整体编码向量和新闻稿件要素编码向量输入层次化图神经网络中,构建新闻稿件异构图,通过基于多层级注意力机制的新闻稿件异构图卷积,更新新闻稿件整体编码向量和新闻稿件要素编码向量,将更新后的编码向量拼接为新闻稿件表示矩阵,通过全连接层输出可解释评价标签预测结果。本发明设计多个可解释评价标签,并利用图神经网络聚合新闻稿件内容及评价信息,对稿件质量进行多层级、细粒度的评价,给出多模新闻稿件的可解释评价标签。

    基于表征子空间映射在对话中的多模态情感识别方法

    公开(公告)号:CN117874572A

    公开(公告)日:2024-04-12

    申请号:CN202311828582.8

    申请日:2023-12-27

    Abstract: 本发明公开了一种基于表征子空间映射在对话中的多模态情感识别方法,所述方法包括构建多模态情感识别模型及其损失函数,训练模型并利用训练后的模型进行多模态情感识别;模型包括:不同模态的特征提取模块,用以提取对话中的不同模态特征;公共编码器,用以获取不同模态特征在公共子空间的公共表征;对应的私有编码器,用以获取对应模态特征在私有子空间的私有表征;对应的跨模态注意力交互模块,用以进行私有表征的跨模态增强;特征级联模块,用以融合所有公共表征、跨模态增强的私有表征;情感识别模块,用以识别融合特征的情感类别。使用本发明的模型可提高多模态情感识别性能。

    一种基于相位感知改进Transformer的息肉图像分割方法

    公开(公告)号:CN117765260A

    公开(公告)日:2024-03-26

    申请号:CN202311811067.9

    申请日:2023-12-26

    Abstract: 本发明公开了一种基于相位感知改进Transformer的息肉图像分割方法,基于Transformer的主干网络提取息肉图像的密集特征Xi,i∈{1,2,3,4};剔除最底层特征X1后,分别利用对应的基于注意力的空洞卷积模块提取各密集特征的粗粒度特征Ai;利用相位感知模块,获取各粗粒度特征的相位特征Pi,i∈{2,3,4}后共同输入到级联融合模块,以获取全局特征H4和全局注意力图S4;将相位特征Pi和对应的全局特征Hi输入到相似聚合模块,获取更新的全局特征Hi‑1;将相似聚合模块输出的全局特征Hi和上一级全局注意力图Si+1共同输入到级联组反向注意力模块,获取全局特征Hi的全局注意力图Si;对各全局注意力图上采样至与息肉图像相同尺寸后,进行逐像素加法,得到分割图像。

    融合扩散模型和投票机制的胰腺实性假乳头状瘤病灶分割方法

    公开(公告)号:CN117291928A

    公开(公告)日:2023-12-26

    申请号:CN202311277158.9

    申请日:2023-09-28

    Abstract: 本发明公开了一种融合扩散模型和投票机制的胰腺实性假乳头状瘤病灶分割方法,所述方法包括以下步骤:步骤1,将不同病人的病例样本数据随机划分至训练集或测试集,病例样本数据包括不同时期的病例图像及对应的分割图像;步骤2,调整各病例图像至同一尺寸;步骤3,基于训练集训练扩散模型以收敛;步骤4,利用扩散模型获取测试集中任一病例图像的掩码预测图像;步骤5,将同一病人不同时期的掩码预测图像传入到投票机制模块中进行投票后,得到预测结果图像;步骤6,将预测结果图像通过图像缩放,分别生成各时期分割图像的同尺寸图像。解决扩散模型在胰腺实性假乳头状瘤病灶分割时产生分割结果为空的特殊情况,同时提高分割效果。

    一种基于轻量级Transformer的甲状腺癌病理图像分类方法

    公开(公告)号:CN116524253A

    公开(公告)日:2023-08-01

    申请号:CN202310435901.2

    申请日:2023-04-19

    Abstract: 本发明涉及图像分析处理识别技术领域,尤其是一种基于轻量级Transformer的甲状腺癌病理图像分类方法,其步骤为:输入甲状腺癌病理切片图像;对甲状腺癌病理切片图像进行均匀切割,得到小块病理图像;将切割后的全部小块病理图像分为训练样本和测试样本;使用ImageNet数据集对提出的轻量级Transformer模型进行预训练;将训练样本用于预训练好模型的微调;将测试样本输入到微调之后的模型,获得小块病理图像的分类结果;采用最大值策略将小块病理图像的分类结果聚合成整张病理切片的结果,从而实现甲状腺病理切片诊断结果的输出,本发明不仅具有较低的计算复杂性,而且能够获得与其它深度学习模型相似的分类性能。

Patent Agency Ranking