一种基于文本分类的中文表格列标签恢复方法和系统

    公开(公告)号:CN109710725A

    公开(公告)日:2019-05-03

    申请号:CN201811524302.3

    申请日:2018-12-13

    Abstract: 本发明涉及一种基于文本分类的中文表格列标签恢复方法和系统。该方法的步骤包括:1)从表格中的每一行中提取实体,在网络百科知识平台中搜索提取的实体,获取实体对应的信息详情页面;2)对实体的每一个属性,在实体的信息详情页面中抽取包含属性值的句子,组成属性值的相关文本;3)将属性值的相关文本输入文本分类器中,获取属性值所属的类别,即为属性值所在单元格的类别;4)对于表格的属性列,根据属性列中各单元格所属的类别,使用多数投票的规则确定该属性列的列标签。本发明能够有效的对网络表格进行列标签恢复,恢复列标签后的表格可用于中文知识图谱的构建和扩展,也可用于数据抽取和表格搜索等应用。

Patent Agency Ranking