生成目录结构化信息的方法和装置

    公开(公告)号:CN110705503A

    公开(公告)日:2020-01-17

    申请号:CN201910973998.6

    申请日:2019-10-14

    Abstract: 本公开的实施例公开了生成目录结构化信息的方法和装置。该方法的一具体实施方式包括:获取待处理版式文档,待处理版式文档包括目录;基于目录的目录特征信息,对目录进行识别,得到版式目录信息;对版式目录信息依次进行去噪、分栏、成行分段、去重处理,得到处理后的版式目录信息;将处理后的版式目录信息映射为目录结构化信息。该实施方式增强了目录在不同设备上显示的自适应性。

    一种办公文档排版式样的测试方法及装置

    公开(公告)号:CN110109838A

    公开(公告)日:2019-08-09

    申请号:CN201910381064.3

    申请日:2019-05-08

    Abstract: 本发明公开一种办公文档排版式样的测试方法及装置,该方法包括:根据被测第一文档中的排版式样信息,修改每个版面元素对应的颜色值,生成第二文档;将所述第一文档和第二文档分别通过被测办公软件打开,并分别转换为第一PDF文档和第二PDF文档;根据所述第一PDF文档和第二PDF文档的各自版面效果,获得对应的第一图像和第二图像;在所述第二图像中,根据排版式样信息,识别版面元素,得到元素集合;将所述第一图像和所述元素集合进行排版式样测量。该方法可通过自动化地识别版面元素类型,并对被测文档的排版式样进行精确的比对,从而提高文档排版式样的测试效率,降低人工成本。

    文档生成方法和装置
    13.
    发明公开

    公开(公告)号:CN107423271A

    公开(公告)日:2017-12-01

    申请号:CN201710647290.2

    申请日:2017-08-01

    Inventor: 李宁 田英爱 刘倩

    Abstract: 本申请实施例公开了文档生成方法和装置。该方法的一具体实施方式包括:获取包括至少两个文档组成单元的初始流式文档,确定指示每一个文档组成单元的用于标注的元数据;根据所确定的元数据的语义,将所确定的元数据进行基于可扩展置标语言的结构化处理,生成标记有标记信息的可扩展置标语言架构文档;获取带有注释性标记的初始流式文档,将带有注释性标记的初始流式文档确定为注释性流式文档;建立可扩展置标语言架构文档中标记的标记信息和该注释性流式文档所标记的标记信息的映射关系;基于该映射关系,将该注释性流式文档转换为可扩展置标语言文档。生成了标注有标注信息的可扩展置标语言文档,便于计算机更加深入地理解文档。

    语义文档存储方法、装置
    14.
    发明授权

    公开(公告)号:CN114707514B

    公开(公告)日:2024-10-01

    申请号:CN202210312822.8

    申请日:2022-03-28

    Abstract: 本公开的实施例公开了语义文档存储方法、装置。该方法的一具体实施方式包括:响应于接收到针对已嵌入语义标记的语义文档的语义标记转换指令,对已嵌入语义标记的语义文档进行语义标记预处理,得到预处理后的流式文档;对预处理后的流式文档进行文本编辑,得到编辑后流式文档;响应于接收到针对编辑后流式文档的语义批注转换指令,对编辑后流式文档进行语义批注后处理,得到处理后的语义文档;对处理后的语义文档进行存储。该实施方式可以使得文字处理软件正常打开、编辑且保存嵌入语义标记的语义文档,同时使得嵌入语义标记的语义文档便于文档的高效检索、信息提取及机器理解等智能化处理。

    用于生成图文结构化信息的方法和装置

    公开(公告)号:CN111046096B

    公开(公告)日:2023-11-24

    申请号:CN201911296540.8

    申请日:2019-12-16

    Abstract: 本公开的实施例公开了用于生成图文结构化信息的方法和装置。该方法的一具体实施方式包括:对待处理的图文混排的版式文档的段落进行识别,得到段落信息,其中,上述段落信息包括用于表征上述段落所在范围的段落外接边框信息;根据上述段落外接边框信息,确定上述段落内的版式图文要素信息;对上述版式图文要素信息进行图元类别信息读取、判定并标记,得到版式图文信息;根据预设的上述版式图文信息的阅读顺序,进行分析、拆分、重排图元对象,得到图文信息;将上述图文信息映射成图文结构化信息。该实施方式实现了图文结构化信息准确生成,进而增强了文档在不同设备上显示的自适应性。

    一种办公文档排版式样的测试方法及装置

    公开(公告)号:CN110109838B

    公开(公告)日:2023-03-21

    申请号:CN201910381064.3

    申请日:2019-05-08

    Abstract: 本发明公开一种办公文档排版式样的测试方法及装置,该方法包括:根据被测第一文档中的排版式样信息,修改每个版面元素对应的颜色值,生成第二文档;将所述第一文档和第二文档分别通过被测办公软件打开,并分别转换为第一PDF文档和第二PDF文档;根据所述第一PDF文档和第二PDF文档的各自版面效果,获得对应的第一图像和第二图像;在所述第二图像中,根据排版式样信息,识别版面元素,得到元素集合;将所述第一图像和所述元素集合进行排版式样测量。该方法可通过自动化地识别版面元素类型,并对被测文档的排版式样进行精确的比对,从而提高文档排版式样的测试效率,降低人工成本。

    电子文件的实时输出方法和装置

    公开(公告)号:CN113703699A

    公开(公告)日:2021-11-26

    申请号:CN202111185218.5

    申请日:2021-10-12

    Abstract: 本公开的实施例公开了电子文件的实时输出方法和装置。该方法的一具体实施方式包括:获取打印参数集合和目标电子文件,其中,打印参数集合为目标电子文件对应的打印相关限定参数集合;从打印参数中解析出打印对象集合;从目标电子文件中解析出页面数据集合;根据打印对象集合和页面数据集合实时打印输出目标电子文件。该实施方式能够同步展示电子文件中的动态内容变化情况,实现电子文档的可视化预览排版,同时实时打印电子文件中的动态内容,提高电子文件输出效率,减少了电子文件输出的资源消耗。

    文档生成方法和装置
    19.
    发明授权

    公开(公告)号:CN107423271B

    公开(公告)日:2020-08-21

    申请号:CN201710647290.2

    申请日:2017-08-01

    Inventor: 李宁 田英爱 刘倩

    Abstract: 本申请实施例公开了文档生成方法和装置。该方法的一具体实施方式包括:获取包括至少两个文档组成单元的初始流式文档,确定指示每一个文档组成单元的用于标注的元数据;根据所确定的元数据的语义,将所确定的元数据进行基于可扩展置标语言的结构化处理,生成标记有标记信息的可扩展置标语言架构文档;获取带有注释性标记的初始流式文档,将带有注释性标记的初始流式文档确定为注释性流式文档;建立可扩展置标语言架构文档中标记的标记信息和该注释性流式文档所标记的标记信息的映射关系;基于该映射关系,将该注释性流式文档转换为可扩展置标语言文档。生成了标注有标注信息的可扩展置标语言文档,便于计算机更加深入地理解文档。

    一种参考文献格式检查方法

    公开(公告)号:CN105824791A

    公开(公告)日:2016-08-03

    申请号:CN201610153946.0

    申请日:2016-03-17

    CPC classification number: G06F17/22

    Abstract: 本发明提供一种参考文献格式检查方法,包括:步骤1、将参考文献著录项格式规则采用Schema进行表述,其中所述参考文献著录项格式中包括以下的至少一个著录项:责任者、题名、参考文献类型、出版者、出版日期、页码;步骤2、读取各条参考文献,进行著录项切分;步骤3、识别参考文献著录项,并将识别出的著录项提取成为XML节点;其中所述著录项包括以下的至少一种:责任者、题名、出版地、出版者、出版日期等;同时,判断该参考文献著录项中是否包括文献类型标志,如果没有则根据著录项添加该参考文献的文献类型标志;步骤4、利用所述参考文献著录项格式规则对著录项进行验证。

Patent Agency Ranking