少样本地址数据集生成方法、地址匹配方法、介质及设备

    公开(公告)号:CN117272053B

    公开(公告)日:2024-02-23

    申请号:CN202311561276.2

    申请日:2023-11-22

    Abstract: 本发明公开了一种少样本地址数据集生成方法、地址匹配方法、介质及设备,属于人工智能领域。本发明针对命名实体识别模型的训练样本过少的问题,通过构建地址数据模板,利用少量地址样本数据自动生成大量同类型的地址训练、测试数据,使模型充分训练,避免欠拟合的情况。同时,本发明还构建了命名实体识别模型自学习框架,用户检索地址过程中通过命名实体识别模型进行匹配,然后由自学习框架完成命名实体识别模型的更新迭代。本发明可大大减少了模型训练数据的人工标注时间,并且通过自学习的方式对模型进行快速迭代,能显著的提高了地址文本匹配的准确率和效率。

    少样本地址数据集生成方法、地址匹配方法、介质及设备

    公开(公告)号:CN117272053A

    公开(公告)日:2023-12-22

    申请号:CN202311561276.2

    申请日:2023-11-22

    Abstract: 本发明公开了一种少样本地址数据集生成方法、地址匹配方法、介质及设备,属于人工智能领域。本发明针对命名实体识别模型的训练样本过少的问题,通过构建地址数据模板,利用少量地址样本数据自动生成大量同类型的地址训练、测试数据,使模型充分训练,避免欠拟合的情况。同时,本发明还构建了命名实体识别模型自学习框架,用户检索地址过程中通过命名实体识别模型进行匹配,然后由自学习框架完成命名实体识别模型的更新迭代。本发明可大大减少了模型训练数据的人工标注时间,并且通过自学习的方式对模型进行快速迭代,能显著的提高了地址文本匹配的准确率和效率。

Patent Agency Ranking