-
公开(公告)号:CN110956036A
公开(公告)日:2020-04-03
申请号:CN201811143681.1
申请日:2018-09-25
Applicant: 南京大学
IPC: G06F40/289 , G06F40/247
Abstract: 本发明公开了一种面向领域的文本大数据快速分词方法,涉及大数据和自然语言预处理领域,解决了目前对大量中文实时文本分词速度慢且较难识别新词的问题。本发明的关键步骤有二:(1)对语料中的邻接字建立频次模型;(2)查找合适的位置将待分词句子切分为若干词语片段。本发明所采用的方法和效果有如下特点:(1)基于统计,不需要预先建立词典,和其他人工干预;(2)在专用领域的语料上有较强的新词发现能力;(3)分词时间复杂度为O(n),明显快于其他分词工具;(4)分词的平均错误率在10%以下。
-
公开(公告)号:CN110929746A
公开(公告)日:2020-03-27
申请号:CN201910454209.8
申请日:2019-05-24
Applicant: 南京大学
Abstract: 本发明公开了一种基于深度神经网络的电子卷宗标题定位提取与分类方法,包括以下步骤:将卷宗图片输入神经网络提取多张多尺寸的特征图,根据输出的特征图计算类别分数以及边框位置,通过多种标题选举算法推选出文书当中的标题位置以及标题类别。本发明目的是为了解决在实际处理电子卷宗过程中,经常需要手动对电子卷宗图像进行分类的情况,从单纯的图像层面而不是通过OCR(光学字符识别)等方式来提取图像的标题,通过图像的特征能够准确获得图像标题的位置及类别,提高了鲁棒性泛用性,提高了图像分类的准确性。
-
公开(公告)号:CN110781898A
公开(公告)日:2020-02-11
申请号:CN201911009431.3
申请日:2019-10-21
Applicant: 南京大学
Abstract: 收集了来自法律领域2014年至2018年不同地区的卷宗扫描件,涵盖几十种分辨率,基于大量的法律卷宗数据,并结合法律文书,融入领域知识,来进行对中文OCR后处理的研究。基于经典模型以及成熟OCR(Tesseract、百度OCR),构建了OCR识别模型。获取大量多样性的Witnesses,免去人工的标注。基于OCR识别系统的结果,提出一种基于无监督的多输入OCR纠错方法,构建OCR纠错模型,可以避免人为的大量标记。实验结果表明,在我们的语料库上,提出的非监督的学习模型,在准确率上有一定的提高。也进一步表明了,采用这种多输入无监督的学习方法可以很好地对OCR的识别结果进行纠正。
-
-