-
公开(公告)号:CN108595389A
公开(公告)日:2018-09-28
申请号:CN201810378038.0
申请日:2018-04-25
Applicant: 华中科技大学
Abstract: 本发明公开一种将Word文档转换为txt纯文本文档的方法,包括以下步骤:提取Word文档中的图片信息和公式信息并保存;将Word文档转换为Html文档,并将所述Html文档中的格式信息去除,所述格式信息为Word文档中格式标签对应的信息;对所述Html进行解析,提取相应的文本信息并存储为txt文档。本发明批量对Word文档进行自动转换,同时优化Word文档转换的结果。
-
公开(公告)号:CN110837740B
公开(公告)日:2021-04-20
申请号:CN201911058218.1
申请日:2019-10-31
Applicant: 华中科技大学 , 武汉烽火技术服务有限公司
Abstract: 本发明公开了一种基于词典改进LDA模型的评论方面观点级挖掘方法,属于网络评论文本挖掘领域。包括:基于原始网络评论库,构建倒排索引列表;对原始网络评论库各句子进行去停词处理,得到预处理后网络评论库;将预处理后网络评论库输入基于SentiWordNet与WordNet的改进LDA模型,采用吉布斯抽样,得到抽样结果;对抽样结果进行排序,选取属于对应评价类别的概率排名前m的单词,根据单词的倒排索引找到具体的句子。本发明将网络评论库的方面直接设置为种子词,不需要人工标注。将评价对象词与评论观点进行分离,通过计算单词与种子词的相似度对LDA模型参数进行偏置,提高模型的效果。基于倒排索引,将聚类结果同种子词及原文建立联系,提高结果的可读性。
-
公开(公告)号:CN108595389B
公开(公告)日:2021-02-26
申请号:CN201810378038.0
申请日:2018-04-25
Applicant: 华中科技大学
IPC: G06F40/151 , G06F40/109 , G06F16/11
Abstract: 本发明公开一种将Word文档转换为txt纯文本文档的方法,包括以下步骤:提取Word文档中的图片信息和公式信息并保存;将Word文档转换为Html文档,并将所述Html文档中的格式信息去除,所述格式信息为Word文档中格式标签对应的信息;对所述Html进行解析,提取相应的文本信息并存储为txt文档。本发明批量对Word文档进行自动转换,同时优化Word文档转换的结果。
-
公开(公告)号:CN110837740A
公开(公告)日:2020-02-25
申请号:CN201911058218.1
申请日:2019-10-31
Applicant: 华中科技大学 , 武汉烽火技术服务有限公司
Abstract: 本发明公开了一种基于词典改进LDA模型的评论方面观点级挖掘方法,属于网络评论文本挖掘领域。包括:基于原始网络评论库,构建倒排索引列表;对原始网络评论库各句子进行去停词处理,得到预处理后网络评论库;将预处理后网络评论库输入基于SentiWordNet与WordNet的改进LDA模型,采用吉布斯抽样,得到抽样结果;对抽样结果进行排序,选取属于对应评价类别的概率排名前m的单词,根据单词的倒排索引找到具体的句子。本发明将网络评论库的方面直接设置为种子词,不需要人工标注。将评价对象词与评论观点进行分离,通过计算单词与种子词的相似度对LDA模型参数进行偏置,提高模型的效果。基于倒排索引,将聚类结果同种子词及原文建立联系,提高结果的可读性。
-
-
-