基于计算机视觉的屏幕浏览场景分类方法

    公开(公告)号:CN113515633B

    公开(公告)日:2023-08-08

    申请号:CN202110747198.X

    申请日:2021-07-02

    Applicant: 福州大学

    Inventor: 柯逍 许培荣

    Abstract: 本发明提出一种基于计算机视觉的屏幕浏览场景分类方法,包括以下步骤:步骤S1:通过自然场景训练集训练文本检测网络模型;步骤S2:采用训练好的文本检测器获得文本区域,并通过文本训练集训练识别网络;步骤S3:采用训练好的文本识别器识别文本区域,并通过新闻标题训练集训练文档分类模型。步骤S4:采用训练好文本分类器分类屏幕浏览场景类别,并采用检测和图像处理信息特征做二分类。该方法能够有效地对屏幕浏览画面进行组成上和内容上的分类。

    一种基于损失平衡训练的多模态视觉定位方法

    公开(公告)号:CN118196866A

    公开(公告)日:2024-06-14

    申请号:CN202410363325.X

    申请日:2024-03-28

    Applicant: 福州大学

    Inventor: 柯逍 许培荣

    Abstract: 本发明涉及一种基于损失平衡训练的多模态视觉定位方法,包括以下步骤:步骤S1:将获取到的公开数据集中的文本描述和图像进行预处理,然后输入一致性衡量模块获得一致性分数和第一多模态特征;步骤S2:将第一多模态特征输入一致性迁移模块处理得到第二多模态特征;步骤S3:将第二多模态特征用于关联掩码解码器回归预测文本描述指代的物体在图像中的坐标包围框;步骤S4:在S1‑S3中级联成的神经网络中加入交叉熵损失和图文对比损失,并通过一致性分数平衡模型训练时损失,推理训练后的模型得到坐标包围框完成文本描述指代对象检测和定位。

    基于计算机视觉的屏幕浏览场景分类方法

    公开(公告)号:CN113515633A

    公开(公告)日:2021-10-19

    申请号:CN202110747198.X

    申请日:2021-07-02

    Applicant: 福州大学

    Inventor: 柯逍 许培荣

    Abstract: 本发明提出一种基于计算机视觉的屏幕浏览场景分类方法,包括以下步骤:步骤S1:通过自然场景训练集训练文本检测网络模型;步骤S2:采用训练好的文本检测器获得文本区域,并通过文本训练集训练识别网络;步骤S3:采用训练好的文本识别器识别文本区域,并通过新闻标题训练集训练文档分类模型。步骤S4:采用训练好文本分类器分类屏幕浏览场景类别,并采用检测和图像处理信息特征做二分类。该方法能够有效地对屏幕浏览画面进行组成上和内容上的分类。

    基于解耦特征引导的多模态文本页面分类方法

    公开(公告)号:CN115761757B

    公开(公告)日:2025-05-09

    申请号:CN202211374707.X

    申请日:2022-11-04

    Applicant: 福州大学

    Inventor: 柯逍 许培荣

    Abstract: 本发明涉及一种基于解耦特征引导的多模态文本页面分类方法,包括以下步骤:获取电子文本页面数据构建训练集,并基于训练集训练双流的端到端Transformer编码网络,所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器;将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征;将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征;将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征,并用于分类网络进行分类。本发明能够有效地通过多模态方法对电子文本页面进行准确分类。

    基于多粒度Vit自动编码器的图像重建方法

    公开(公告)号:CN115619681A

    公开(公告)日:2023-01-17

    申请号:CN202211374681.9

    申请日:2022-11-04

    Applicant: 福州大学

    Inventor: 柯逍 许培荣

    Abstract: 本发明涉及一种基于多粒度Vit自动编码器的图像重建方法,包括以下步骤:步骤S1:构建图像重建训练集,并训练基于Vit的图像重建精化器,所述基于Vit的图像重建精化器包括编码器、解码器和跳跃连接模块;步骤S2:将原始图像输入编码器得到中间特征,并在每层编码层中采样编码器本地信息;步骤S3:将得到的中间特征输入解码器还原图像信息,并在每层解码过程将解码信息与全局信息进行融合。本发明通过该多粒度Vit图像精化器网络实现图像重建下任务下的有效降噪处理和图像超分辨率。

    基于解耦特征引导的多模态文本页面分类方法

    公开(公告)号:CN115761757A

    公开(公告)日:2023-03-07

    申请号:CN202211374707.X

    申请日:2022-11-04

    Applicant: 福州大学

    Inventor: 柯逍 许培荣

    Abstract: 本发明涉及一种基于解耦特征引导的多模态文本页面分类方法,包括以下步骤:获取电子文本页面数据构建训练集,并基于训练集训练双流的端到端Transformer编码网络,所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器;将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征;将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征;将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征,并用于分类网络进行分类。本发明能够有效地通过多模态方法对电子文本页面进行准确分类。

Patent Agency Ranking