-
公开(公告)号:CN114781471A
公开(公告)日:2022-07-22
申请号:CN202110614418.1
申请日:2021-06-02
Applicant: 清华大学
IPC: G06K9/62 , G06N3/04 , G06N3/08 , G06F40/295
Abstract: 本发明提供一种实体记录匹配方法及系统,该方法包括:获取待匹配的实体记录集合,所述实体记录集合中的实体记录是由实体的属性和属性值组成的;将所述实体记录集合输入到训练好的实体记录匹配模型,得到所述实体记录集合中实体记录之间的匹配结果,其中,所述训练好的实体记录匹配模型是由自监督学习方法训练后的神经网络和决策树算法训练后的决策树模型构建得到的。本发明通过神经网络对实体转换为属性值向量,利用自动构建的关键属性树,克服深度学习可解释性差的缺点,能将学习到的关键属性树转化成匹配规则,运用到其他数据集中;同时,本发明对应模型的训练仅需要少量的标记实体记录对,克服了现有方法需要大量标记实体记录对的缺点。
-
公开(公告)号:CN114781471B
公开(公告)日:2022-12-27
申请号:CN202110614418.1
申请日:2021-06-02
Applicant: 清华大学
IPC: G06K9/62 , G06N3/04 , G06N3/08 , G06F40/295
Abstract: 本发明提供一种实体记录匹配方法及系统,该方法包括:获取待匹配的实体记录集合,所述实体记录集合中的实体记录是由实体的属性和属性值组成的;将所述实体记录集合输入到训练好的实体记录匹配模型,得到所述实体记录集合中实体记录之间的匹配结果,其中,所述训练好的实体记录匹配模型是由自监督学习方法训练后的神经网络和决策树算法训练后的决策树模型构建得到的。本发明通过神经网络对实体转换为属性值向量,利用自动构建的关键属性树,克服深度学习可解释性差的缺点,能将学习到的关键属性树转化成匹配规则,运用到其他数据集中;同时,本发明对应模型的训练仅需要少量的标记实体记录对,克服了现有方法需要大量标记实体记录对的缺点。
-