-
公开(公告)号:CN113435163A
公开(公告)日:2021-09-24
申请号:CN202110978686.1
申请日:2021-08-25
Applicant: 南京中孚信息技术有限公司
IPC: G06F40/109 , G06F40/242 , G06F40/279 , G06K9/20
Abstract: 本发明公开了光学字符识别技术领域的一种任意字符组合的OCR数据生成的方法,包括通过字符字典、字体库和语料库生成字符‑字体映射字典,得到字符和所有支持的字体之间的对应关系;从语料库中获取待生成图片的一行文本,切分文本成多个字符串,找到各个字符串与其对应的字体;将找到的各个字符串对应的字体进行排列得到文字图片;将文字图片进行拼接得到最终图片;本发明改进了以往OCR数据生成时,在背景图片上绘制指定文字的环节,实现了任意字符组合的OCR数据生成方式,简单高效。
-
公开(公告)号:CN119179798B
公开(公告)日:2025-03-14
申请号:CN202411686812.6
申请日:2024-11-25
Applicant: 南京中孚信息技术有限公司
IPC: G06F16/583 , G06F16/58 , G06V30/42 , G06V30/19 , G06V30/148 , G06V10/82 , G06N3/0464
Abstract: 本发明实施例提供一种印章检索方法、系统、电子设备及存储介质,属于印章检测领域。该方法包括:获取待检索的印章图片,并将其输入至预先构建的目标检测模型进行检测;若待检索的印章图片中存在印章、文字和特殊标识,则根据其对应的坐标对印章区域进行裁剪获得目标检索区域;提取其对应的特征向量和/或特殊标识对应的特征向量,并在特征库中进行向量检索,确定是否存在匹配的印章图片获得初始匹配的印章;对目标检索区域中的文字进行识别,并将识别结果与初始匹配的印章中的文字进行对比,若一致则表示匹配成功。通过从多个维度上获取印章的特征,实现更加细粒度的印章特征提取,从而提升了印章匹配的准确性,避免了印章检索过程中的误检现象。
-
公开(公告)号:CN112100361B
公开(公告)日:2021-02-26
申请号:CN202011259026.X
申请日:2020-11-12
Applicant: 南京中孚信息技术有限公司
IPC: G06F16/332 , G06F16/9532
Abstract: 本发明公开了一种基于AC自动机的字符串多模模糊匹配方法,该方式包括以下步骤:利用规则对多组带有标签的模式串集合进行定义,将定义后的带有标签的模式串加入数据库;判断文本内容是否为首次查询;若文本内容为首次查询,则将数据库中所有带有标签的模式串读取,并通过预先配置的方法实现对Trie树的构建;在Trie树上采用预设规则完成fail指针的构建;采用预设方法实现文本内容与多组带有标签的模式串集合之间的查询匹配。有益效果:本发明在AC自动机的基础上加入模糊匹配的功能,不仅能够有效利用到多模字符串中的公共前缀,减少比较次数,而且能支持模糊匹配,具有一定的鲁棒性,简单高效。
-
公开(公告)号:CN119179798A
公开(公告)日:2024-12-24
申请号:CN202411686812.6
申请日:2024-11-25
Applicant: 南京中孚信息技术有限公司
IPC: G06F16/583 , G06F16/58 , G06V30/42 , G06V30/19 , G06V30/148 , G06V10/82 , G06N3/0464
Abstract: 本发明实施例提供一种印章检索方法、系统、电子设备及存储介质,属于印章检测领域。该方法包括:获取待检索的印章图片,并将其输入至预先构建的目标检测模型进行检测;若待检索的印章图片中存在印章、文字和特殊标识,则根据其对应的坐标对印章区域进行裁剪获得目标检索区域;提取其对应的特征向量和/或特殊标识对应的特征向量,并在特征库中进行向量检索,确定是否存在匹配的印章图片获得初始匹配的印章;对目标检索区域中的文字进行识别,并将识别结果与初始匹配的印章中的文字进行对比,若一致则表示匹配成功。通过从多个维度上获取印章的特征,实现更加细粒度的印章特征提取,从而提升了印章匹配的准确性,避免了印章检索过程中的误检现象。
-
公开(公告)号:CN115565175A
公开(公告)日:2023-01-03
申请号:CN202211245543.0
申请日:2022-10-12
Applicant: 南京中孚信息技术有限公司
IPC: G06V30/14 , G06V30/146
Abstract: 本申请提供一种文本识别方法、电子设备及存储介质,涉及数据处理技术领域。首先实现了待识别的文本图像的自动化裁剪;而后,针对裁剪得到的相邻的两张裁剪图像,进行拼接区域图像的确定,得到拼接区域图像对应的各文件检测框,以解决上述进行图像裁剪时可能造成的相邻裁剪图像的连接处文字被截断,从而导致文本信息识别不完整或重复的问题。而针对重复识别的问题,还可进一步地通过拼接区域图像对应的文本检测框对裁剪图像对应的文本检测框进行去重处理。最后通过对各裁剪图像和拼接区域图像进行排序,并依次识别各裁剪图像对应的文件检测框和各拼接区域图像对应的文本检测框,得到待识别的文本图像(长图)的文本信息识别结果。
-
公开(公告)号:CN112100361A
公开(公告)日:2020-12-18
申请号:CN202011259026.X
申请日:2020-11-12
Applicant: 南京中孚信息技术有限公司
IPC: G06F16/332 , G06F16/9532
Abstract: 本发明公开了一种基于AC自动机的字符串多模模糊匹配方法,该方式包括以下步骤:利用规则对多组带有标签的模式串集合进行定义,将定义后的带有标签的模式串加入数据库;判断文本内容是否为首次查询;若文本内容为首次查询,则将数据库中所有带有标签的模式串读取,并通过预先配置的方法实现对Trie树的构建;在Trie树上采用预设规则完成fail指针的构建;采用预设方法实现文本内容与多组带有标签的模式串集合之间的查询匹配。有益效果:本发明在AC自动机的基础上加入模糊匹配的功能,不仅能够有效利用到多模字符串中的公共前缀,减少比较次数,而且能支持模糊匹配,具有一定的鲁棒性,简单高效。
-
公开(公告)号:CN117496521A
公开(公告)日:2024-02-02
申请号:CN202311539409.6
申请日:2023-11-17
Applicant: 南京中孚信息技术有限公司
IPC: G06V30/148 , G06V30/412 , G06V30/19
Abstract: 本发明提出的一种表格关键信息抽取方法、系统、装置及可读存储介质,属于文档处理技术领域。所述方法包括:使用目标检测算法检测表格图片中的表格位置,根据表格位置的坐标对表格图片进行裁剪,裁剪出表格区域图片;使用OCR算法对表格区域图片进行文字识别及文字位置识别,以确定文本框及文本框中的文字;利用文本框中的文字判断是否需要进行文字纠错,如果需要进行文字纠错,则使用基于MLM任务训练好的语言模型进行文字纠错;使用图像分割算法对表格区域图片进行表格结构识别;基于识别出的表格结构,进行关键信息抽取。本发明通过加入文本纠错策略和在信息抽取时使用带有容错的策略,有效提升了表格关键信息抽取的准确率。
-
公开(公告)号:CN113435163B
公开(公告)日:2021-11-16
申请号:CN202110978686.1
申请日:2021-08-25
Applicant: 南京中孚信息技术有限公司
IPC: G06F40/109 , G06F40/242 , G06F40/279 , G06K9/20
Abstract: 本发明公开了光学字符识别技术领域的一种任意字符组合的OCR数据生成的方法,包括通过字符字典、字体库和语料库生成字符‑字体映射字典,得到字符和所有支持的字体之间的对应关系;从语料库中获取待生成图片的一行文本,切分文本成多个字符串,找到各个字符串与其对应的字体;将找到的各个字符串对应的字体进行排列得到文字图片;将文字图片进行拼接得到最终图片;本发明改进了以往OCR数据生成时,在背景图片上绘制指定文字的环节,实现了任意字符组合的OCR数据生成方式,简单高效。
-
-
-
-
-
-
-