OFD版式文档段落识别方法及装置

    公开(公告)号:CN114359943A

    公开(公告)日:2022-04-15

    申请号:CN202210038042.9

    申请日:2022-01-13

    Abstract: 本申请公开了一种OFD版式文档段落识别方法及装置,用以解决版式文档提取文字段落错误率高的技术问题。其中,一种OFD版式文档段落识别方案,通过对所述版式图像进行图像分割,至少生成若干文字块;提取所述若干文字块的特征属性;将相似版式进行聚类,生成元素为文字块的若干聚类文字块集合;对所述若干聚类文字块集合进行段落识别,生成段落块信息;根据所述段落块信息,更新版式文档中的段落标识。以便操作者在对文本段落进行提取时,可以得到还原流式格式的字符串。并且通过对文字块的语义连续性进行计算,提高了识别文本段落的准确性。同时,还针对OFD版式文档表格提出了一种新的文本提取方案,提高了文本提取的泛用性。

    远程运维方法及系统
    2.
    发明公开

    公开(公告)号:CN114338640A

    公开(公告)日:2022-04-12

    申请号:CN202111665991.1

    申请日:2021-12-31

    Abstract: 本申请公开了一种远程运维方法及系统,用以解决远程运维交互困难的技术问题。其中,一种远程运维系统包括:目标终端;用于发送维护数据包的远端处理终端;用于转发维护数据包至目标终端的运维设备。本申请所提供的远程运维系统,通过运维设备发送目标终端的屏幕画面至远端处理终端,并转发来自远端处理终端的、根据所述屏幕画面制作的维护指令包至目标终端,从而提高了远程运维的工作效率。通过改造连接目标终端的键盘,以实现维护指令包的有效输入。并且通过对非目标终端的屏幕画面设置掩码、对远端处理终端的操作权限进行验证、对维护指令包进行加密等技术手段以提高远程运维工作过程的安全性。

    一种基于前景蒙版的文档图像降噪方法

    公开(公告)号:CN110807747B

    公开(公告)日:2021-03-30

    申请号:CN201911049926.9

    申请日:2019-10-31

    Abstract: 本发明公开了一种基于前景蒙版的文档图像降噪方法,属于文档图像数据处理技术领域,该方法包括:通过随机采样统计最大频数确定图像背景颜色像素值;对比HSV空间像素值得到第一前景蒙版,针对图片亮度不均匀的情况,自适应局部二值化得到第二前景蒙版,第一前景蒙版与第二前景蒙版做and操作得到最终前景蒙版;然后,利用kmeans聚类方法得到像素板,获取代表性色彩,设定背景为之前计算得到的背景像素。本发明能有效提取文档图像的背景色并获取其前景蒙板,特别是针对前景主要是文本及图文表格的文档图像。利用前景蒙板的方法可以有效过滤去除包括背景上的无用干扰噪声而对前景主体不会造成很大损失,可以提高文档图像质量。

    生成图像噪声检测模型的方法、图像噪声检测方法及装置

    公开(公告)号:CN110910356A

    公开(公告)日:2020-03-24

    申请号:CN201911085069.8

    申请日:2019-11-08

    Abstract: 本发明提供了生成图像噪声检测模型的方法、图像噪声检测方法及装置,利用深度学习建立图像噪声检测模型及利用该模型进行图像噪声的检测。图像噪声检测模型的生成方法包括首先根据神经网络搭建图像噪声检测模型,再获取足量的文档图像数据,构建数据集和测试集对模型进行训练。本发明能有效区分文档图像中的噪声程度,特别是扫描文档图像中的噪声。根据噪声程度,来进一步判断采集图像质量是否合格,能否归档存储或需进行重新采集,可自动帮助工作人员采集高质量文档图像进行归档存储。

    一种OFD文档网页端浏览的方法及系统

    公开(公告)号:CN110765385A

    公开(公告)日:2020-02-07

    申请号:CN201911018601.4

    申请日:2019-10-24

    Abstract: 本发明提供一种OFD文档网页端浏览的方法及系统,浏览器将OFD文档标识传给服务器,服务器返回OFD文档的页结构信息给浏览器;浏览器根据接收的信息对OFD文档进行分组,生成所有分组的HTML标签,并生成当前分组下包含页的HTML标签。当前页为第n页,浏览器在浏览器缓存中查询第n-1、n、n+1、n+2页是否已经加载,如果已经加载,则不做处理,如果没有加载,则向服务器请求加载相应页面数据。本发明采用异步加载的方式,按需加载,减少了浏览器端的等待时间,简化HTML文档结构,可以降低浏览器的渲染压力,提高浏览器的响应速度。

    一种对电子卷宗的标题自动识别的方法及装置

    公开(公告)号:CN110728240A

    公开(公告)日:2020-01-24

    申请号:CN201910972986.1

    申请日:2019-10-14

    Abstract: 本发明提供了一种对电子卷宗的标题自动识别的方法及装置,对所述电子卷宗分类,分为文本格式卷宗和表格格式卷宗;分别对文本格式卷宗和表格格式卷宗进行标题识别,输出标题识别结果。对于表格类卷宗,通过表格区域识别,可以识别表头文本区域,并提取表头文本,按行做标题判断,提升表格格式卷宗的标题识别准确性。本发明的标题判断模型采用深度神经网络的方式进行训练,分别对标题和非标题的文本进行标注训练,使得此模型的适用性更强,匹配的结果更为精确。

    远程运维方法及系统
    8.
    发明授权

    公开(公告)号:CN114338640B

    公开(公告)日:2024-03-26

    申请号:CN202111665991.1

    申请日:2021-12-31

    Abstract: 本申请公开了一种远程运维方法及系统,用以解决远程运维交互困难的技术问题。其中,一种远程运维系统包括:目标终端;用于发送维护数据包的远端处理终端;用于转发维护数据包至目标终端的运维设备。本申请所提供的远程运维系统,通过运维设备发送目标终端的屏幕画面至远端处理终端,并转发来自远端处理终端的、根据所述屏幕画面制作的维护指令包至目标终端,从而提高了远程运维的工作效率。通过改造连接目标终端的键盘,以实现维护指令包的有效输入。并且通过对非目标终端的屏幕画面设置掩码、对远端处理终端的操作权限进行验证、对维护指令包进行加密等技术手段以提高远程运维工作过程的安全性。

    版式文档浏览方法及系统

    公开(公告)号:CN116186438B

    公开(公告)日:2023-09-05

    申请号:CN202310071850.X

    申请日:2023-01-13

    Abstract: 本申请公开了一种版式文档浏览方法及系统,用以解决连续浏览多个版式文档对存储资源造成浪费的技术问题。其中,一种版式文档浏览方案,通过在线加载多个版式文档以减轻存储资源造成的浪费。通过根据浏览对象的浏览权限,提供匹配的多个版式文档,以便不同浏览权限的浏览对象进行浏览,提高了访问的安全性。通过对版式文档进行分组加载,提高了加载效率。

    版式文档浏览方法及系统
    10.
    发明公开

    公开(公告)号:CN116186438A

    公开(公告)日:2023-05-30

    申请号:CN202310071850.X

    申请日:2023-01-13

    Abstract: 本申请公开了一种版式文档浏览方法及系统,用以解决连续浏览多个版式文档对存储资源造成浪费的技术问题。其中,一种版式文档浏览方案,通过在线加载多个版式文档以减轻存储资源造成的浪费。通过根据浏览对象的浏览权限,提供匹配的多个版式文档,以便不同浏览权限的浏览对象进行浏览,提高了访问的安全性。通过对版式文档进行分组加载,提高了加载效率。

Patent Agency Ranking