-
公开(公告)号:CN111507351B
公开(公告)日:2023-05-30
申请号:CN202010298720.6
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
IPC: G06V30/148 , G06V30/416 , G06V30/19 , G06V30/14 , G06N3/0464 , G06N3/08
-
公开(公告)号:CN111507351A
公开(公告)日:2020-08-07
申请号:CN202010298720.6
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
Abstract: 本发明公开一种古籍文档数字化的方法,包括:收集数据,再利用收集的数据训练单字检测模型,得到单字输出结果;同时训练单字分类模型,对检测后的单字输出分类结果,结合单字的检测以及识别结果最终得到文档的识别结果;利用图形形态学的方法提取文档版面的直线,并设计算法解决文档双列夹注的问题,为文档结构化输出提供条件,最后输出图片对应的文档数字化结果,完成文档数字化的工作。本发明方法解决了版面复杂,密集文档下的单字检测以及较大的文档背景中包括污渍干扰等问题,具有简单高效,识别精度高的优点,将现代计算机信息技术与传统人文文化相结合,对于数字遗产保护,信息发现,纸质文档转录等工作具有重要的积极作用。
-
公开(公告)号:CN111507247B
公开(公告)日:2023-04-18
申请号:CN202010298651.9
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
IPC: G06V30/414 , G06V30/148 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开一种基于强化学习的古籍文字精准检测方法,包括步骤S1、数据获取,收集古籍文献的图像数据,并进行单字标注,形成古籍文献数据集;步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的古籍文献数据集对粗检测器进行训练,基于训练后的粗检测器对古籍文献进行文字粗检测;步骤S3、文字精调,基于深度神经网络构建强化学习智能体,将文字粗检测结果作为强化学习智能体的输入,选取基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体进行古籍文献的文字检测。本发明通过强化学习来进一步提高文字检测精度,为古籍文字的研究提供了有力的帮助。
-
公开(公告)号:CN111507247A
公开(公告)日:2020-08-07
申请号:CN202010298651.9
申请日:2020-04-16
Applicant: 华南理工大学 , 华南理工大学珠海现代产业创新研究院
Abstract: 本发明公开一种基于强化学习的古籍文字精准检测方法,包括步骤S1、数据获取,收集古籍文献的图像数据,并进行单字标注,形成古籍文献数据集;步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的古籍文献数据集对粗检测器进行训练,基于训练后的粗检测器对古籍文献进行文字粗检测;步骤S3、文字精调,基于深度神经网络构建强化学习智能体,将文字粗检测结果作为强化学习智能体的输入,选取基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体进行古籍文献的文字检测。本发明通过强化学习来进一步提高文字检测精度,为古籍文字的研究提供了有力的帮助。
-
公开(公告)号:CN117542063B
公开(公告)日:2024-04-09
申请号:CN202410033225.0
申请日:2024-01-10
Applicant: 华南理工大学
Abstract: 本发明公开了一种多语言多模态多分支文档视觉信息抽取方法,本发明属于模式识别与人工智能领域,包括:获取若干种语言的文档图像,对所述文档图像进行检测识别,得到文本检测识别结果;对所述文本检测识别结果进行排序,得到已排序检测识别结果;对所述已排序检测识别结果和所述文档图像进行特征提取,得到多模态特征,将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练;基于预训练好的多模态特征,分别进行实体类别预测、实体链接预测,以实现文档视觉信息的抽取。本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能,显著超越同类具有竞争力的其他现有方法。
-
公开(公告)号:CN113722490B
公开(公告)日:2023-05-26
申请号:CN202111039394.8
申请日:2021-09-06
Applicant: 华南理工大学
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F18/214 , G06N3/0464
Abstract: 本发明公开了一种基于键值匹配关系的视觉富文档信息抽取方法,包括:采集视觉富文档,对所述视觉富文档进行第一多模态特征提取,获得不同级别的特征文本;基于所述特征文本和词嵌入模型获得实体分类结果。本发明创新性地利用实体关联性来研究视觉富文档信息抽取,有效避开了基于命名实体识别的方法难以处理数字类别歧义性和语义歧义性等问题,对现有的视觉富文档信息抽取方法进行有效地补充。
-
公开(公告)号:CN113722490A
公开(公告)日:2021-11-30
申请号:CN202111039394.8
申请日:2021-09-06
Applicant: 华南理工大学
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04
Abstract: 本发明公开了一种基于键值匹配关系的视觉富文档信息抽取方法,包括:采集视觉富文档,对所述视觉富文档进行第一多模态特征提取,获得不同级别的特征文本;基于所述特征文本和词嵌入模型获得实体分类结果。本发明创新性地利用实体关联性来研究视觉富文档信息抽取,有效避开了基于命名实体识别的方法难以处理数字类别歧义性和语义歧义性等问题,对现有的视觉富文档信息抽取方法进行有效地补充。
-
公开(公告)号:CN112801010B
公开(公告)日:2023-02-14
申请号:CN202110168304.9
申请日:2021-02-07
Applicant: 华南理工大学
IPC: G06V30/41 , G06V30/414 , G06V30/262 , G06F40/295 , G06F16/35 , G06F40/30
Abstract: 本发明公开了一种针对实际OCR场景下的视觉富文档信息抽取方法,方法包括以下步骤:收集实际场景下的视觉富文本图像;利用预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征;训练命名实体分类模块;构建基于图卷积GAT的全局文档图结构,引入自注意力机制;训练命名实体边界定位模块;构建多特征聚合结构;训练错误语义纠正模块,采用GRU的解码结构,根据CRF的最优路径,取出对应维度特征的编码隐状态,通过将命名实体的类别信息,作为先验指导信息,指导每次解码器的输出,得到规范格式的实体命名信息。本发明有效提升了视觉富文档信息抽取方法在实际OCR检测识别应用中的精度,对视觉富文档信息的结构化存储具有重要的意义。
-
公开(公告)号:CN115439859A
公开(公告)日:2022-12-06
申请号:CN202211017001.8
申请日:2022-08-23
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于字符移动任务的自监督文本识别方法,包括以下步骤:首先移动手写单词图像中的字符,然后预测字符移动的像素值,通过电子设备获得手写单词的图像,然后对单词图像进行数据增强和字符移动,再构建神经网络来进行预训练,分别是对同一张原图的不同数据增强的图像进行对比学习和对经过字符移动的图像进行分类,最后,文本识别模型读入预训练阶段的编码器参数来对手写单词图像及对应标签进行微调训练;本发明设计的字符移动任务通过辅助整词级别的对比学习可以有效地在预训练阶段学习到单词图像的特征表示,从而在网络微调阶段达到收敛速度更快和识别率更高的效果。
-
公开(公告)号:CN117542063A
公开(公告)日:2024-02-09
申请号:CN202410033225.0
申请日:2024-01-10
Applicant: 华南理工大学
Abstract: 本发明公开了一种多语言多模态多分支文档视觉信息抽取方法,本发明属于模式识别与人工智能领域,包括:获取若干种语言的文档图像,对所述文档图像进行检测识别,得到文本检测识别结果;对所述文本检测识别结果进行排序,得到已排序检测识别结果;对所述已排序检测识别结果和所述文档图像进行特征提取,得到多模态特征,将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练;基于预训练好的多模态特征,分别进行实体类别预测、实体链接预测,以实现文档视觉信息的抽取。本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能,显著超越同类具有竞争力的其他现有方法。
-
-
-
-
-
-
-
-
-