-
公开(公告)号:CN120030474A
公开(公告)日:2025-05-23
申请号:CN202510102253.8
申请日:2025-01-22
Applicant: 东北大学
IPC: G06F18/2433 , G06F18/22 , G06F18/2415 , G06F18/213 , G06F18/27 , G06F40/295 , G06F40/30 , G06N3/0464 , G06N3/045 , G06N3/084 , G06N3/0895
Abstract: 本申请提出一种基于自监督学习以及属性感知的广义实体匹配方法,自然语言处理技术领域,包括:通过自监督学习方法,采用伪标签生成策略,得到实体匹配的正负训练样本;采用共享权重机制来改善实体的嵌入学习过程,即属性类型嵌入与属性类型对应的属性值嵌入进行级联,使得属性值共享学习到的属性类型注意力权重得分,用得到的属性类型嵌入与属性值嵌入通过级联方式进行信息聚合,进一步整合实体整体特征信息来相互补充,提高实体对齐准确度。
-
公开(公告)号:CN120067148A
公开(公告)日:2025-05-30
申请号:CN202510135645.4
申请日:2025-02-07
Applicant: 东北大学
IPC: G06F16/2453 , G06F16/2455 , G06N3/045 , G06N3/08 , G06N5/04
Abstract: 本发明公开一种基于累积分布的学习型基数估计方法和系统,涉及数据库查询优化技术领域。该方法在保证高精度的同时确保了稳定性。这种稳定性保证了生成的执行计划的一致性,从而有助于商业数据库性能的持续稳定。累积分布函数可以直接提供随机变量在任意区间内的累计概率,这对于评估变量落在特定范围内的概率非常方便。相比之下,使用概率密度函数或概率质量函数确定区间概率需要进行积分或求和,这不仅更复杂,还可能导致更大的误差。与此同时,该方法对高维数据的推理加速显著降低了延迟,带来了显著的性能提升,对于大规模数据处理尤其具有重要价值。
-