一种气象语料库构建方法、系统及相关装置

    公开(公告)号:CN119476448A

    公开(公告)日:2025-02-18

    申请号:CN202510055895.7

    申请日:2025-01-14

    Abstract: 本发明公开了一种气象语料库构建方法、系统及相关装置,属于气象数据处理技术领域。该方法包括:收集气象领域的原始语料文件,将原始语料文件转换成统一的markdown格式数据;对所述markdown格式数据进行清洗,并组织成统一结构化的气象语料库;将所述统一结构化的气象语料库结合外部知识库构建气象服务大模型所需要的各类数据集,各类数据集包括用于预训练的数据集、微调的数据集以及检索增强生成所需的数据集和评估基准数据集。该方法显著提高了构建效率,降低了人工成本,同时也确保了气象语料库的质量和一致性。

Patent Agency Ranking