-
公开(公告)号:CN107688583A
公开(公告)日:2018-02-13
申请号:CN201610640647.X
申请日:2016-08-05
Applicant: 株式会社NTT都科摩 , 中国科学院自动化研究所
Abstract: 本发明涉及一种创建用于自然语言处理装置的训练数据的方法和设备,以及利用该训练数据的自然语言处理装置。一种创建用于自然语言处理系统的训练数据的方法,包括:接收创建所述训练数据的请求;获得用于创建所述训练数据的自然语言语料库输入;确定所述训练数据所需的分包参数;基于所述分包参数,将所述自然语言语料库输入分为多个包,所述多个包的每个包括多个示例;对于所述多个示例的每一个,自动提取句子级特征向量,其中,具有所述句子级特征向量的所述多个包作为所述训练数据。
-
公开(公告)号:CN119026593A
公开(公告)日:2024-11-26
申请号:CN202411109907.1
申请日:2024-08-13
Applicant: 中国科学院自动化研究所 , 北京百川智能科技有限公司 , 北京英博数科科技有限公司
IPC: G06F40/226 , G06F16/332 , G06F16/31 , G06F40/30 , G06F40/186 , G06N20/00
Abstract: 本申请公开了一种用于大模型的评测方法及装置。所述评测方法包括:获取知识参考数据集,所述知识参考数据集包括常识知识参考数据集、世界知识参考数据集和语言知识参考数据集中的至少一者;基于所述知识参考数据集,构建未被包括在针对大型语言模型的训练语料库中的评测问题以及与评测问题对应的评测答案;针对每个评测问题的知识关系,构建多种问题模板,从而各个评测问题及其对应的评测答案以及多种问题模板构成用于大型语言模型的评测数据库;根据预设评测标准,利用所述评测数据库对待评测大型语言模型进行评测,得到所述待评测大型语言模型的评测结果。
-