-
公开(公告)号:CN116050374A
公开(公告)日:2023-05-02
申请号:CN202310004653.6
申请日:2023-01-03
Applicant: 武汉大学
IPC: G06F40/189 , G06F18/22 , G06F40/30 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/0499 , G06N3/084
Abstract: 本发明公开了一种跨域跨源的数据对齐方法、系统及电子设备,方法首先输入待对齐的多组表格数据;然后提取数据中的键值对以及两者在表格中的位置;接着使用数据多模态表示模型,生成键、值、视觉位置的向量表达;计算来自不同数据的向量表达的语义距离;最后对不同数据之间的语义距离进行评价,确定对齐结果。本发明在使用键之间的配对之外,增加考虑值的匹配情况,增强现有技术中键的匹配。本发明在本文表示之外,融合了表格视觉结构作为键值对的语义表示的一部分,突破了现有技术仅采用单模态信息进行匹配的限制。