一种面向科学领域多模态语料数据的构建方法和装置

    公开(公告)号:CN118170933B

    公开(公告)日:2024-08-13

    申请号:CN202410585594.0

    申请日:2024-05-13

    Abstract: 本发明公开了一种面向科学领域多模态语料数据的构建方法和装置,方法包括以下步骤:按语料主题分类采集待处理的科学领域相关多模态原始语料数据;构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据;对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测,基于语料评测结果对整体语料数据进行质量评估;根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。本发明通过自动化任务处理流管线高效处理并生成语料数据,同时提供统一存储与质量评测,通过不断优化处理流程得到高质量科学领域语料数据库,能够为大模型训练提供可靠的数据基础,推动科学研究和应用技术的不断发展。

    一种面向科学领域多模态语料数据的构建方法和装置

    公开(公告)号:CN118170933A

    公开(公告)日:2024-06-11

    申请号:CN202410585594.0

    申请日:2024-05-13

    Abstract: 本发明公开了一种面向科学领域多模态语料数据的构建方法和装置,方法包括以下步骤:按语料主题分类采集待处理的科学领域相关多模态原始语料数据;构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据;对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测,基于语料评测结果对整体语料数据进行质量评估;根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。本发明通过自动化任务处理流管线高效处理并生成语料数据,同时提供统一存储与质量评测,通过不断优化处理流程得到高质量科学领域语料数据库,能够为大模型训练提供可靠的数据基础,推动科学研究和应用技术的不断发展。

Patent Agency Ranking