-
公开(公告)号:CN114399770A
公开(公告)日:2022-04-26
申请号:CN202111478986.X
申请日:2021-12-06
Applicant: 度小满科技(北京)有限公司
IPC: G06V30/24 , G06V30/148 , G06V30/146
Abstract: 本申请提供了一种用于任意长度文本识别的方法和装置,该方法包括:将目标图片输入至朝向检测模型,根据所述朝向检测模型输出的预测结果将所述目标图片旋转至正确朝向;将正确朝向的目标图片输入至文本检测模型,获得经所述文本检测模型裁剪得到的至少一个文本行图片;对于所述至少一个文本行图片中的每个文本行图片,将该文本行图片输入至字符检测模型,获得该文本行图片对应的字符位置信息,根据所述字符位置信息,并利用文本识别模型或字符识别模型,获得该文本行图片对应的文本信息。本申请通过将字符检测模型引入文本识别过程中,能够在无需改变文本识别模型输入尺寸的前提下,确保针对任意长度文本均具备极高的识别精准度。
-
公开(公告)号:CN119476227A
公开(公告)日:2025-02-18
申请号:CN202411491531.5
申请日:2024-10-24
Applicant: 度小满科技(北京)有限公司
IPC: G06F40/18 , G06V30/41 , G06V30/412 , G06V30/19
Abstract: 本公开提供了一种表格重建方法、装置、电子设备以及存储介质,涉及表格处理技术领域,该方法包括:对至少一张目标图片进行表格检测,确定目标图片中包含的表格区域图像;针对每个表格区域图像,对表格区域图像进行表格结构识别,得到待重建表格包含的至少一个表格结构对象;基于至少一个表格结构对象进行表格结构搭建,确定待重建表格的表格结构信息,表格结构信息至少包括待重建表格中包含的至少一个目标单元格的单元格坐标;对目标图片进行文本识别,得到至少一个文本内容和文本内容对应的文本坐标;基于表格结构信息、文本坐标和文本内容,生成目标图片中包含的目标重建表格。该方法可以在提高重建效果的同时保障表格重建方法的普适性。
-
公开(公告)号:CN117593418A
公开(公告)日:2024-02-23
申请号:CN202311606575.3
申请日:2023-11-28
Applicant: 度小满科技(北京)有限公司
IPC: G06T11/40 , G06V10/24 , G06V10/22 , G06V10/764 , G06V10/82 , G06V30/146 , G06V30/14 , G06V30/19 , G06F21/60 , G06F21/62
Abstract: 本公开实施例提供一种图像的打码方法和装置,涉及图像处理技术领域。该方法的具体实施方式包括:获取待打码图像;其中待打码图像包括文本特征、和/或图码特征;对待打码图像进行预处理;将预处理后的待打码图像输入特征类别及坐标识别模型,根据特征类别及坐标识别模型的输出,确定待打码图像中各个文本特征、和/或图码特征的特征类别和特征坐标;根据特征类别和特征坐标,对待打码图像中符合预设打码条件的文本特征、和/图码特征进行打码,得到打码结果。该实施方式能够满足任意场景的关键信息的精准、智能打码需求,降低识别成本,减少打码误差,在提高打码精确度的同时提升打码效率和信息利用率,降低风控风险,提升隐私安全。
-
公开(公告)号:CN117115832A
公开(公告)日:2023-11-24
申请号:CN202311091056.8
申请日:2023-08-28
Applicant: 度小满科技(北京)有限公司
IPC: G06V30/19
Abstract: 本公开提供一种罕见字符的训练样本的生成方法和装置,涉及图像识别技术领域。该方法的具体实施方式包括:响应于客户端发送的业务请求,向客户端下发信息校验指令;根据客户端返回的对待校验字符的校验结果,获取用户通过客户端输入的校正字符,将校正字符作为罕见字符构建罕见字典库;采集与罕见字典库对应的文本语料库,选取背景图像、字体格式和字体颜色对文本语料库的各个文本片段进行渲染,生成训练图像;将各个文本片段作为训练图像的图像标签,组合训练图像和图像标签生成训练样本。该实施方式能够降低人力成本、学习成本、计算资源和开发成本,训练数据量充足且训练出的模型识别准确度高,模型训练、使用的便利性和效率提升,扩展性强。
-
公开(公告)号:CN114898379A
公开(公告)日:2022-08-12
申请号:CN202210507472.0
申请日:2022-05-10
Applicant: 度小满科技(北京)有限公司
IPC: G06V30/24 , G06V30/146
Abstract: 本申请提供了一种弯曲文本识别的方法、装置、设备及存储介质。该方法包括:根据待识别文本图像内弯曲文本的弯曲边界关键点,确定对应的弯曲文本边界线;对所述弯曲文本边界线形成的文本弯曲区域进行水平转换,得到对应的水平文本识别区域;利用单独训练的水平文本识别模型,识别所述水平文本识别区域内的文本内容。本申请通过弯曲文本边界线形成的文本弯曲区域,无需在弯曲文本识别时对除真正的文本内容之外的其他图像特征进行分析,确保弯曲文本识别的文本特征精确度,然后通过单独训练的水平文本识别模型,进一步提高弯曲文本识别的准确性和高效性。
-
-
-
-