基于文本语义映射关系的Web表格异常数据发现方法

    公开(公告)号:CN115659989A

    公开(公告)日:2023-01-31

    申请号:CN202211219884.0

    申请日:2022-10-06

    Applicant: 东南大学

    Abstract: 本发明公开了基于文本语义映射关系的Web表格异常数据发现方法。本发明旨在发现Web表格中的带有模糊甚至错误语义信息的异常数据。该方法主要包括三个部分:语义表示模块、列类型推断模块以及错误发现模块。首先,通过语义表示模块表征单元格文本的含义,针对表格中的某一个单元格,根据上下文信息将单元格中的字符串文本表征为语义向量;然后,通过列类型推断模块推断该单元格所在列的类型,获取列的模式信息;最后,基于主列单元格和目标单元格在列类型和单元格文本语义向量之间的映射关系,发现并标注表格中的异常数据。

Patent Agency Ranking