一种基于数据预处理的地址文本信息相关性学习方法

    公开(公告)号:CN114298228B

    公开(公告)日:2024-10-15

    申请号:CN202111650136.3

    申请日:2021-12-30

    Abstract: 本发明公开了一种地址文本信息相关性的训练学习方法。针对模型预训练知识缺少针对性、地址文本本身的不规范问题以及训练集存在样本数量不平衡情况,首先对预训练集中地址进行遮掩预处理,然后用预处理后的预训练集对初始化后的模型进行预训练,接着对训练集中地址关系对的两条地址进行修正和补齐,并利用特殊的训练集划分策略将整个训练集划分为多个子训练集,再利用预训练后的模型对各个子训练集进行集成训练和预测,最后对集成模型的泛化能力进行测试。

    一种基于数据预处理的地址文本信息相关性学习方法

    公开(公告)号:CN114298228A

    公开(公告)日:2022-04-08

    申请号:CN202111650136.3

    申请日:2021-12-30

    Abstract: 本发明公开了一种地址文本信息相关性的训练学习方法。针对模型预训练知识缺少针对性、地址文本本身的不规范问题以及训练集存在样本数量不平衡情况,首先对预训练集中地址进行遮掩预处理,然后用预处理后的预训练集对初始化后的模型进行预训练,接着对训练集中地址关系对的两条地址进行修正和补齐,并利用特殊的训练集划分策略将整个训练集划分为多个子训练集,再利用预训练后的模型对各个子训练集进行集成训练和预测,最后对集成模型的泛化能力进行测试。

Patent Agency Ranking