-
公开(公告)号:CN108595389A
公开(公告)日:2018-09-28
申请号:CN201810378038.0
申请日:2018-04-25
Applicant: 华中科技大学
Abstract: 本发明公开一种将Word文档转换为txt纯文本文档的方法,包括以下步骤:提取Word文档中的图片信息和公式信息并保存;将Word文档转换为Html文档,并将所述Html文档中的格式信息去除,所述格式信息为Word文档中格式标签对应的信息;对所述Html进行解析,提取相应的文本信息并存储为txt文档。本发明批量对Word文档进行自动转换,同时优化Word文档转换的结果。
-
公开(公告)号:CN108595389B
公开(公告)日:2021-02-26
申请号:CN201810378038.0
申请日:2018-04-25
Applicant: 华中科技大学
IPC: G06F40/151 , G06F40/109 , G06F16/11
Abstract: 本发明公开一种将Word文档转换为txt纯文本文档的方法,包括以下步骤:提取Word文档中的图片信息和公式信息并保存;将Word文档转换为Html文档,并将所述Html文档中的格式信息去除,所述格式信息为Word文档中格式标签对应的信息;对所述Html进行解析,提取相应的文本信息并存储为txt文档。本发明批量对Word文档进行自动转换,同时优化Word文档转换的结果。
-