基于提示学习的生成式文本视觉问答方法及系统

    公开(公告)号:CN117786054A

    公开(公告)日:2024-03-29

    申请号:CN202311267037.6

    申请日:2023-09-27

    Abstract: 本发明提供一种基于提示学习的生成式文本视觉问答方法及系统,其中的方法包括:对以文本为中心的多模态采样数据进行预处理,以提取所述多模态采样数据中每种模态的特征作为训练数据;利用所述训练数据训练基于提示学习的生成式文本视觉问答模型,其中包括:利用Transformer编码器对所述每种模态的特征进行跨模态交互,以生成所述多模态采样数据的特征向量;利用Transformer解码器将文本视觉问答建模为完形填空任务,通过所述完形填空任务对所述特征向量进行文本视觉问答处理,以文本序列的形式生成答案;模型处理文本视觉问答任务。利用本发明,能够极大地激发预训练语言模型的潜能,同时避免它可能带来的语言偏见。

    基于对比学习特征增强的场景文字检测方法及装置

    公开(公告)号:CN117523571A

    公开(公告)日:2024-02-06

    申请号:CN202311298617.1

    申请日:2023-10-09

    Abstract: 本发明公开了一种基于对比学习特征增强的场景文字检测方法及装置,该方法包括:构建训练图片集和场景文字检测模型;基于场景文字检测模型对训练图片进行文字检测,并结合标签图,获得文字检测损失;抽取特征融合模块输出的视觉特征图,并基于文字特性进行微调后,结合标签图实施文字特征、背景特征和文本邻接区域特征的抽取和聚合,且对聚合特征进行对比学习的拉近和推远,以得到对比学习损失;根据文字检测损失和对比学习损失进行反向传播,得到训练后的场景文字检测模型;基于训练后的场景文字检测模型获取待检测图片的预测概率图后进行后处理,得到待检测图片中的文字位置。本发明可以在保证推理速度的同时提升检测效果,提高检测精度。

    基于伪目标重放与挖掘的增量目标检测方法及装置

    公开(公告)号:CN117437501A

    公开(公告)日:2024-01-23

    申请号:CN202311216027.X

    申请日:2023-09-20

    Abstract: 本发明提供一种基于伪目标重放与挖掘的增量目标检测方法及装置,所述方法包括:获取一已训练完成的旧模型和若干新训练数据,并用已训练完成的旧模型初始化新模型,以得到原始新模型;结合随机生成的噪声向量、旧类标签与边界框对新训练数据进行增广,得到增广后的新数据;将增广后的新数据输入到原始新模型和旧模型中,通过原始新模型和旧模型分别得到图像级特征、实例级特征和检测结果进行原始新模型的参数更新,以得到新模型;基于新模型,得到待检测数据的目标检测结果。本发明可以减少增量模型在共现和非共现场景下的性能差距。

    基于掩模引导的去除印章噪声的图像生成方法及系统

    公开(公告)号:CN116863476A

    公开(公告)日:2023-10-10

    申请号:CN202310733846.5

    申请日:2023-06-20

    Abstract: 本发明公开一种基于掩模引导的去除印章噪声的图像生成方法及系统,涉及图像文字识别领域,通过印章定位模块生成能够代表印章位置的掩模,避免对非印章区域文字的过度擦除,并保证能够将注意力集中在印章区域;通过提取背景文字的纹理信息,以及通过跳过连接将纹理信息和掩膜一起传递给印章擦除模块,让印章擦除模块在去除印章的同时保留背景文字,确保对印章准确地擦除。本发明能够自动将文档图像中遮挡文字信息并妨碍图像文字识别的印章进行擦除,保留被印章遮挡的背景文字,从而防止或减少印章遮挡对文字识别器的负面影响,进而有助于更准确识别文档图像中的文字。

    面向场景文本检测的文本检测器训练方法及文本检测方法

    公开(公告)号:CN114913531A

    公开(公告)日:2022-08-16

    申请号:CN202210492865.9

    申请日:2022-05-07

    Abstract: 本发明公开了一种面向场景文本检测的文本检测器训练方法及文本检测方法。本发明的训练方法包括:1)使用训练数据集对所选文本检测器进行预训练;2)使用预训练获得的文本检测器参数对设定模型UNITS的每一分支进行初始化;其中,所述分支的模型结构与所述文本检测器结构一致;3)根据UNITS中设定的无监督训练策略,使用无标注的真实数据对UNITS进行无监督训练,同时使用训练数据集对UNITS进行有监督训练,更新UNITS的模型参数;4)使用步骤3)最终所得UNITS的模型参数对所述文本检测器初始化,然后使用有标注的目标数据集对初始化后的所述文本检测器进行有监督训练得到最终训练后的文本检测器。

    基于完形填空任务的视频自监督学习方法

    公开(公告)号:CN111091157A

    公开(公告)日:2020-05-01

    申请号:CN201911348018.X

    申请日:2019-12-24

    Abstract: 本发明提出一种基于完形填空任务的视频自监督学习方法,属于数字化视频自监督领域,通过切分视频段,对选取视频段进行空间或/和时间的变换操作,再放回原视频中提取特征,进行变换操作的分类识别,由此实现自监督学习,通过这种完形填空的方式,在不需要人工标注数据的同时,引导网络学习丰富的视频特征,同时基于完形填空的特性,可以针对不同的特征融合多个自监督任务,增加了泛化性。

    一种基于语义敏感的网络协议识别方法及系统

    公开(公告)号:CN104468262B

    公开(公告)日:2017-12-15

    申请号:CN201410652834.0

    申请日:2014-11-17

    Abstract: 本发明涉及一种基于语义敏感的网络协议识别方法及系统。在建模阶段,以特定应用协议的网络数据报文集合作为输入,利用Latent Dirichlet Allocation方法构建所分析协议的关键字模型;在训练阶段,依照协议关键字模型提取数据报文的分类特征信息,以获得的关键字特征向量作为输入,利用有监督机器学习方法对离线训练数据集学习训练,获得所分析协议的分类模型;在分类阶段,依照协议关键字模型提取数据报文的分类特征信息,利用协议分类模型对待测网络数据报文的协议属性做出判别,判断其是否属于目标协议的网络数据报文。本发明能够充分挖掘网络消息报文中潜在的协议语义信息,对多种网络协议进行有效的协议识别。

    基于直方图和超像素的场景图像文字检测方法及系统

    公开(公告)号:CN103942797B

    公开(公告)日:2017-01-25

    申请号:CN201410168244.0

    申请日:2014-04-24

    Inventor: 张永铮 周宇

    Abstract: 本发明涉及基于直方图和超像素的场景图像文字检测方法,包括:步骤1:对目标图片中可能存在的文字的笔画宽度值进行估计,基于笔画宽度值生成一个笔画直方图;步骤2:对目标图片进行边缘检测,进行比对和修正,得到边缘检测质量最高的连通域;步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素估算高精度笔画宽度;步骤4:根据高精度笔画宽度过滤字符与非字符;步骤5:通过连通域的空间分布利用几何约束进一步过滤字符与非字符,过滤文本行和非文本行;步骤6:完成对目标图片中对字符和文本行的检测。本发明提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。

    单阶段3D点云目标检测方法及装置、计算机设备、介质

    公开(公告)号:CN114155524B

    公开(公告)日:2024-11-08

    申请号:CN202111271651.0

    申请日:2021-10-29

    Abstract: 本发明公开了一种单阶段3D点云目标检测方法及装置、计算机设备、介质。本方法为:根据3D点云中目标与获取3D点云的采样传感器距离不同,设置不同的聚类半径参数对3D点云进行聚类操作,用立体包围框将同类的点云包含起来得到最小立体包围框,并对每一所述最小立体包围框内的点集合进行下采样,得到数据增广后的点云数据;对数据增广后的点云数据进行基于球内最远距离采样,并对采样得到的点进行特征提取,得到语义特征和空间特征;根据空间特征和语义特征预测每个点的预测分数,然后按照预测分数从高到低完成点采样;对采样点的特征进行融合得到融合特征图;回归预测网络根据该融合特征图进行预测,得到点云当中目标的位置和类别。

    基于对抗训练的场景文字识别方法及装置

    公开(公告)号:CN118262346A

    公开(公告)日:2024-06-28

    申请号:CN202410434598.9

    申请日:2024-04-11

    Abstract: 本发明公开了一种基于对抗训练的场景文字识别方法及装置,属于场景文字识别领域,本发明使用训练数据集对场景文字识别模型进行迭代训练,每次迭代中基于原始样本采用PGD攻击生成对抗样本利用小批量原始样本数据和对应的小批量对抗样本数据对模型进行标准训练和对抗训练,最后通过正则化系数进行损失融合,采用梯度下降更新模型参数。本发明利用对抗训练能够提高场景文字识别模型的准确性和鲁棒性。

Patent Agency Ranking