文字识别系统的训练方法及装置、文字识别方法及装置

    公开(公告)号:CN115862015A

    公开(公告)日:2023-03-28

    申请号:CN202211247962.8

    申请日:2022-10-12

    Abstract: 本说明书实施例提供一种文字识别系统的训练方法及装置,其中文字识别系统包括图像表征网络、字符对齐网络和字符分类器。该方法包括:利用数据增广模块对包含标签文本的原始图像进行场景渲染处理,得到增广图像;利用图像表征网络分别处理原始图像和增广图像,对应得到原图表征和增广图表征;利用字符对齐网络分别处理原图表征和增广图表征,分别得到与标签文本中各个字符对应的第一字符表征和第二字符表征;利用字符分类器处理第一字符表征,形成第一预测文本;利用字符对比模块处理第一字符表征和第二字符表征,得到对应相同字符的正表征对和对应不同字符的负表征对;基于第一预测文本、标签文本、正表征对和负表征对,训练文字识别系统。

    目标检测系统的训练方法及装置

    公开(公告)号:CN114925813A

    公开(公告)日:2022-08-19

    申请号:CN202210573722.0

    申请日:2022-05-25

    Abstract: 本说明书实施例提供一种目标检测系统的训练方法,所述目标检测系统包括主干网络和头部网络,所述主干网络包括若干卷积层和若干自注意力层,所述方法包括:将训练图片输入所述目标检测系统,其中,利用所述若干卷积层对所述训练图片进行卷积处理,得到卷积表征;利用所述若干注意力层基于所述卷积表征进行自注意力处理,得到特征图;利用所述头部网络处理所述特征图,得到所述训练图片中目标对象的检测结果;基于所述训练图片对应的对象标注数据以及所述检测结果,确定各个神经网络层各自的梯度范数;针对所述各个神经网络层,根据所述梯度范数的平均数和其自身的梯度范数,更新其网络参数。

    具有多模态信息的检索对象的检索方法和装置

    公开(公告)号:CN113076433B

    公开(公告)日:2022-05-17

    申请号:CN202110454387.8

    申请日:2021-04-26

    Abstract: 本说明书实施例提供一种具有多模态信息的检索对象的检索方法和装置,方法包括:获取单模态的查询信息,单模态的查询信息为第一文本或第一图片;当查询信息为第一文本时,将第一文本输入生成模型,生成与第一文本包含的主体对应的图像特征;将第一文本对应的文本特征和图像特征输入图文转换器,对文本特征和图像特征进行基于自注意力的融合,输出查询信息的第一查询特征向量;根据第一查询特征向量与各检索特征向量之间的相似度,确定与查询信息相匹配的检索对象;各检索特征向量分别对应于数据库中的各检索对象,任一检索特征向量为将其对应的检索对象的多模态信息输入图文转换器得到的。能够提高检索精度。

    半监督语义分割模型训练方法、识别方法和装置

    公开(公告)号:CN111898613B

    公开(公告)日:2020-12-25

    申请号:CN202011054144.7

    申请日:2020-09-30

    Abstract: 本说明书实施例提供了半监督语义分割模型训练方法、识别方法和装置,根据实施例的半监督语义分割模型训练方法,首先通过获取人工对第一图像中的待标注对象进行标注后得到的第一监督数据,进而通过第一监督数据训练得到对待标注对象的识别率相对较高的全监督语义分割模型。利用全监督语义分割模型对未经过人工标注的第二图像中的待标注对象进行标注,得到第二监督数据。再利用经过人工标注得到的第一监督数据和经过全监督语义分割模型标注得到的第二监督数据训练半监督语义分割模型,并利用半监督语义分割模型对第一图像、第二图像和随机扰动项进行识别,得到第三监督数据。最后通过第一、第二和第三监督数据对半监督语义分割模型再次训练。

Patent Agency Ranking