一种双流场景文本图像分割方法、装置及存储介质

    公开(公告)号:CN116434236A

    公开(公告)日:2023-07-14

    申请号:CN202310286891.0

    申请日:2023-03-21

    Abstract: 本发明公开了一种双流场景文本图像分割方法、装置及存储介质,其中方法包括:获取场景文本图像以及对应的二值化图像进行分割标注,获得输入图像;构建双流文本分割网络,提取输入图像的全局注意力特征和局部细节特征,并将提取的两种特征融合为文本分割特征;采用文本语义信息来引导双流文本分割网络关注文本所在区域,以增强文本分割特征;将经过增强的文本分割特征动态地上采样,得到输出二值化分割图像;计算输出二值化分割图像和标注的二值化图像之间的损失,根据计算的损失训练整个神经网络。本发明能够解决场景文本在图片中分布不均和尺度、形状变化多样的问题,提高文本图像分割性能,可广泛应用于模式识别与人工智能技术领域。

    一种人工智能领域文档关键信息抽取方法

    公开(公告)号:CN113158674A

    公开(公告)日:2021-07-23

    申请号:CN202110353610.X

    申请日:2021-04-01

    Abstract: 本发明公开了一种人工智能领域文档关键信息抽取方法,包括以下步骤:S1、收集人工智能领域文档数据,进行关键信息抽取数据标注;S2、对预训练模型RoBERTa进行进一步预训练;S3、构建信息抽取模型;S4、利用进一步预训练得到的RoBERTa模型进行骨干网络参数初始化;S5、利用已标注数据进行训练,训练过程中对标注数据进行随机替换和数据增强并利用平方交叉熵损失来计算反向传播的误差;S6、利用训练得到的信息抽取模型在人工智能领域无结构化文本中进行信息抽取得到结果三元组。本发明方法将信息抽取作为一种机器阅读理解任务来求解,预测文本中各个关键信息的起点和终点位置,解决了序列标注模型应对长跨度知识文本时性能效果大幅度下降的问题。

    一种基于特征解耦与纹理比对的图像篡改文本定位方法

    公开(公告)号:CN118135382A

    公开(公告)日:2024-06-04

    申请号:CN202410088402.5

    申请日:2024-01-22

    Abstract: 本发明公开了一种基于特征解耦与纹理比对的图像篡改文本定位方法,包括:构建文本篡改检测模型;利用不同的文本编辑算法产生篡改文本图像数据;通过目标检测模型和纹理特征解耦模块分别提取及解耦输入图像的语义特征图和纹理特征图;利用提取得到的语义特征图进行文本区域定位;利用纹理特征增强模块提取纹理特征图的全局特征;利用篡改特征分类头将纹理特征图中各文本区域特征与全局特征进行对比,根据对比结果判断各文本区域是否为篡改文本区域。本发明将语义特征与纹理特征解耦,避免在篡改检测训练过程中过拟合与篡改特征无关的文本外观语义特征;通过将各文本区域的纹理特征与全局特征进行差异比对,以判断各文本区域是否为篡改文本区域。

    一种自监督文档图像篡改检测方法、装置及介质

    公开(公告)号:CN116524294A

    公开(公告)日:2023-08-01

    申请号:CN202310405925.3

    申请日:2023-04-14

    Abstract: 本发明公开了一种自监督文档图像篡改检测方法、装置及介质,其中方法包括:获取文档图像;对文档图像进行预处理;根据预处理后的文档图像,利用选择式篡改生成方法生成自监督训练样本;构建并训练基于多模态Transformer的文档图像篡改检测模型;构建并训练频域攻击检测模型;根据训练后的文档图像篡改检测模型和频域攻击检测模型,构建文档图像篡改检测系统,用于对输入样本进行预测。本发明本发明的文档图像篡改检测系统仅仅利用无标注文档图像进行训练,节省了大量人力,实现了自监督的文档图像篡改检测;模型基于多模态Transformer同时利用视觉信息和频域信息进行篡改检测,可高效检出无视觉痕迹篡改,可广泛应用于人工智能及计算机视觉的技术领域。

    一种人工智能领域文档关键信息抽取方法

    公开(公告)号:CN113158674B

    公开(公告)日:2023-07-25

    申请号:CN202110353610.X

    申请日:2021-04-01

    Abstract: 本发明公开了一种人工智能领域文档关键信息抽取方法,包括以下步骤:S1、收集人工智能领域文档数据,进行关键信息抽取数据标注;S2、对预训练模型RoBERTa进行进一步预训练;S3、构建信息抽取模型;S4、利用进一步预训练得到的RoBERTa模型进行骨干网络参数初始化;S5、利用已标注数据进行训练,训练过程中对标注数据进行随机替换和数据增强并利用平方交叉熵损失来计算反向传播的误差;S6、利用训练得到的信息抽取模型在人工智能领域无结构化文本中进行信息抽取得到结果三元组。本发明方法将信息抽取作为一种机器阅读理解任务来求解,预测文本中各个关键信息的起点和终点位置,解决了序列标注模型应对长跨度知识文本时性能效果大幅度下降的问题。

    一种图像篡改区域自动标注方法
    6.
    发明公开

    公开(公告)号:CN118135351A

    公开(公告)日:2024-06-04

    申请号:CN202410088406.3

    申请日:2024-01-22

    Abstract: 本发明公开了一种图像篡改区域自动标注方法,包括以下步骤:获取篡改图像及其相应原始图像组成图像对;构建并通过自监督学习利用无标注图像训练二分类器,并用其对篡改图像与原图组成的图像对进行分类;构建并训练基于语义去噪图像差的篡改区域标注模型;构建并训练基于跨层匹配的篡改区域标注模型;将无标注图像对分别输入到两个模型中得到篡改区域标注结果;使用自过滤算法筛除次优预测结果,保留的结果作为最终标注结果。本发明的图像篡改区域自动标注系统能够自动而准确地标注网络上的大量无标注手工篡改数据,极大地降低了篡改图像篡改区域标注成本,从而缓解了图像篡改检测领域的手工标注数据匮乏问题。

    一种密集表格结构识别方法、系统及存储介质

    公开(公告)号:CN117409427A

    公开(公告)日:2024-01-16

    申请号:CN202311581825.2

    申请日:2023-11-24

    Abstract: 本发明公开了一种密集表格结构识别方法、系统及存储介质,其中方法步骤包括:基于密集表格数据,生成密集表格图像并对密集表格图像进行标注;基于密集表格图像及其标注,生成训练样本;构建密集表格结构识别模型,并基于训练样本,训练密集表格结构识别模型;利用密集表格结构识别模型,完成密集表格的结构识别。本发明的密集表格结构识别模型采用邻接特征聚合来捕捉相邻网格的视觉信息,并应用了非自回归的全连接层来预测网格合并信息,可高效准确的识别出密集表格图像的结构,且泛化性强,能够得到广泛的应用。

    自然场景文本图像字符像素弱监督自动标注方法、系统及介质

    公开(公告)号:CN113673338B

    公开(公告)日:2023-09-26

    申请号:CN202110806669.X

    申请日:2021-07-16

    Abstract: 本发明公开了一种自然场景文本图像字符像素弱监督自动标注方法、系统及介质,该方法包括收集训练样本;生成合成数据;构建并利用训练样本及合成数据训练弱监督实例分割模型;生成伪标注;利用带伪标注数据继续训练;利用已完成训练的弱监督实例分割模型对待标注自然场景文本行图像进行像素级自动标注。本发明能够利用仅带有文本行字符串内容标注的自然场景文本行图像,自动而准确地生成其中每个字符的字符像素标注,从而能够大大解放人力,并可以辅助提升文本行识别器的性能及为场景文本编辑、擦除模型提供细粒度标注信息。此外,本发明鲁棒性强,能够完成各种真实场景环境下复杂结构中英文字符的自动标注。

    基于对齐CTC的字符切割方法、系统及介质

    公开(公告)号:CN113673336B

    公开(公告)日:2023-09-26

    申请号:CN202110805781.1

    申请日:2021-07-16

    Inventor: 曲晨帆 金连文

    Abstract: 本发明公开了一种基于对齐CTC的字符切割方法、系统及介质,该方法为:收集文本行图像并进行预处理;构建基于CTC的文本行识别模型;利用预处理后的训练样本采用丢帧法训练基于CTC的文本行识别模型;将待切割文本图像进行处理并输入至已完成训练的基于CTC的文本行识别模型中;根据输出各帧的类别预测结果和置信度得到字符切割位置;根据字符切割位置在原图上切割得到字符。本发明的基于对齐CTC的文本行识别模型的训练数据只需要标注文本行内容,不需要标注单字的位置,节省了大量人力,实现了弱监督的文本行单字分割。另外,本发明的模型能够适用于任意输入长度以及带较多标注噪声的输入文本图像,鲁棒性强,能够得到更广泛的运用。

    自然场景文本图像字符像素弱监督自动标注方法、系统及介质

    公开(公告)号:CN113673338A

    公开(公告)日:2021-11-19

    申请号:CN202110806669.X

    申请日:2021-07-16

    Abstract: 本发明公开了一种自然场景文本图像字符像素弱监督自动标注方法、系统及介质,该方法包括收集训练样本;生成合成数据;构建并利用训练样本及合成数据训练弱监督实例分割模型;生成伪标注;利用带伪标注数据继续训练;利用已完成训练的弱监督实例分割模型对待标注自然场景文本行图像进行像素级自动标注。本发明能够利用仅带有文本行字符串内容标注的自然场景文本行图像,自动而准确地生成其中每个字符的字符像素标注,从而能够大大解放人力,并可以辅助提升文本行识别器的性能及为场景文本编辑、擦除模型提供细粒度标注信息。此外,本发明鲁棒性强,能够完成各种真实场景环境下复杂结构中英文字符的自动标注。

Patent Agency Ranking