-
公开(公告)号:CN118035698A
公开(公告)日:2024-05-14
申请号:CN202410061732.5
申请日:2024-01-16
Applicant: 东北大学
IPC: G06F18/21 , G06F18/214 , G06F18/2113
Abstract: 本发明公开一种基于大语言模型的诗歌数据增强方法,步骤为:1)从互联网中收集海量的诗歌数据,文体格式限定为绝句与律诗;针对收集的诗歌数据进行数据清洗;2)挑选格律准确的高质量诗歌作为内容和格律的标准,随机挑选步骤1)中清洗后诗歌数据的5%,使用大语言模型参照标准进行综合评分;3)对步骤2)中得到的诗歌数据及诗歌质量综合评分数据进行训练得到诗歌质量评价模型;4)使用步骤3)中的诗歌质量评价模型对步骤1)中的清洗后的全部诗歌数据进行评分,根据分数筛选出高质量诗歌数据,实现诗歌数据增强。本发明方法辅助诗歌数据集进行数据增强,减少噪声数据的干扰,达到提高诗歌数据集质量的效果,更加节省成本。