-
-
-
公开(公告)号:CN111382621A
公开(公告)日:2020-07-07
申请号:CN201811628271.6
申请日:2018-12-28
Applicant: 北大方正集团有限公司 , 北大方正信息产业集团有限公司 , 北京大学
IPC: G06K9/00 , G06F40/186
Abstract: 本发明提供一种参数调整方法和装置,该方法包括:获取各个交互操作模板参数;根据预设的文档识别模板参数和交互操作模板参数之间的第一映射关系,确定与每一个交互操作模板参数对应的文档识别模板参数,其中,所述第一映射关系中每一个所述文档识别模板参数对应至少一个交互操作模板参数;根据与每一个交互操作模板参数对应的文档识别模板参数,对预设的文档进行识别处理,得到第一识别结果。本方案能够调整各个文档识别模板参数,以适应不同排版格式的文档,以提高识别效果。
-
公开(公告)号:CN109918473A
公开(公告)日:2019-06-21
申请号:CN201711342621.8
申请日:2017-12-14
Applicant: 北大方正集团有限公司 , 北大方正信息产业集团有限公司 , 北京大学
IPC: G06F16/33
Abstract: 本发明提出了一种数学公式相似度的测量方法及其测量系统,其中数学公式相似度的测量方法包括:将待测量数学公式和基准数学公式分别表示为待测量链表树和基准链表树;计算待测量链表树及基准链表树的相似度,得到第一数值;判断第一数值是否小于1;当第一数值小于1时,计算待测量链表树的子结构与基准链表树的子结构的相似度,得到第二数值;比较第一数值及第二数值的大小,将第一数值与第二数值中较大的一个作为待测量数学公式和基准数学公式的相似度测量结果。本发明提供的数学公式相似度的测量方法相比较于以往基于文本相似的测量方式,具有更好的可信度。
-
公开(公告)号:CN102663138A
公开(公告)日:2012-09-12
申请号:CN201210135787.3
申请日:2012-05-03
Applicant: 北京大学
Abstract: 本发明公布了一种公式查询条件的输入方法和装置。所述方法包括:用户通过截取屏幕区域的方式,选定当前文档的数字内容中需要检索的公式区域;如果当前文档为版式文档,则进行版式文档符号识别;否则,进行图像文档符号识别;根据公式符号对公式的布局结构和逻辑结构进行分析,将布局结构和逻辑结构分析结果输出到公式的结构描述文件中,并作为公式搜索引擎的查询输入。该方法使得用户可以实现简单方便地输入待查询公式,达到了用户可以根据所看到的公式来进行自动检索的效果。解决了目前公式检索系统中用户不易于输入待查询公式的问题,满足用户对公式检索输入方式的易用性的要求,可以提升用户的检索体验和检索效率。
-
公开(公告)号:CN101354727A
公开(公告)日:2009-01-28
申请号:CN200810222784.7
申请日:2008-09-24
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正阿帕比技术有限公司
Abstract: 本发明公开了一种建立数字文档目录与正文之间链接的方法及装置,用以提供一种自动建立数字文档目录与正文之间链接的方法,提高数字文档与正文之间链接建立的效率。该方法包括,从保存每个目录条目信息获取至少一个目录项信息,根据所述至少一个目录项信息,在数字文档中确定每个目录条目对应的每个逻辑页;建立每个目录条目与对应的每个逻辑页之间的链接。如本发明提出的方案,通过自动建立数字文档目录与正文之间链接,可以有效地提高数字文档的目录与正文之间链接的建立效率,进而提高数字文档的制作速度。
-
公开(公告)号:CN111143333B
公开(公告)日:2023-06-09
申请号:CN201811313048.2
申请日:2018-11-06
Applicant: 北大方正集团有限公司 , 北大方正信息产业集团有限公司 , 北京大学
IPC: G06F16/215 , G06F16/22
Abstract: 本发明实施例提供一种标注数据处理方法、装置、设备及计算机可读存储介质。本发明实施例的方法,通过获取标注区域的相似度大于预设阈值的至少一组标注数据,每组标注数据为一组待清洗数据;确定每组待清洗数据的新标注区域和新标注类别;根据每组待清洗数据的新标注区域和新标注类别,对每组待清洗数据进行清洗处理,可以自动识别出标注数据中的重复数据和差异数据,并自动完成对重复数据和差异数据的清洗,提高了标注数据的有效性。
-
公开(公告)号:CN109918473B
公开(公告)日:2020-12-29
申请号:CN201711342621.8
申请日:2017-12-14
Applicant: 北大方正集团有限公司 , 北大方正信息产业集团有限公司 , 北京大学
IPC: G06F16/33
Abstract: 本发明提出了一种数学公式相似度的测量方法及其测量系统,其中数学公式相似度的测量方法包括:将待测量数学公式和基准数学公式分别表示为待测量链表树和基准链表树;计算待测量链表树及基准链表树的相似度,得到第一数值;判断第一数值是否小于1;当第一数值小于1时,计算待测量链表树的子结构与基准链表树的子结构的相似度,得到第二数值;比较第一数值及第二数值的大小,将第一数值与第二数值中较大的一个作为待测量数学公式和基准数学公式的相似度测量结果。本发明提供的数学公式相似度的测量方法相比较于以往基于文本相似的测量方式,具有更好的可信度。
-
公开(公告)号:CN111143333A
公开(公告)日:2020-05-12
申请号:CN201811313048.2
申请日:2018-11-06
Applicant: 北大方正集团有限公司 , 北大方正信息产业集团有限公司 , 北京大学
IPC: G06F16/215 , G06F16/22
Abstract: 本发明实施例提供一种标注数据处理方法、装置、设备及计算机可读存储介质。本发明实施例的方法,通过获取标注区域的相似度大于预设阈值的至少一组标注数据,每组标注数据为一组待清洗数据;确定每组待清洗数据的新标注区域和新标注类别;根据每组待清洗数据的新标注区域和新标注类别,对每组待清洗数据进行清洗处理,可以自动识别出标注数据中的重复数据和差异数据,并自动完成对重复数据和差异数据的清洗,提高了标注数据的有效性。
-
公开(公告)号:CN110083805A
公开(公告)日:2019-08-02
申请号:CN201810071710.1
申请日:2018-01-25
Applicant: 北京大学
IPC: G06F17/22
Abstract: 本发明公布了一种将Word格式文件转换为EPUB格式文件的方法与系统。针对.docx格式的Word文件,通过对Word源文件的目录进行识别与处理,能够识别源Word文档目录结构,自动生成EPUB电子书,其步骤包括:Word文件解析、XML文件解析、Word文件拆分、HTML文件生成以及EPUB文件生成。本发明提供的能够识别源Word文件目录的EPUB电子书自动生成办法,解决了现有技术转换效果不佳、手动添加标题目录的转换过程操作繁琐、效率低下等问题,保障了文档内容的完整性,提升了文档的转换效果并提高了工作效率。
-
-
-
-
-
-
-
-
-