-
公开(公告)号:CN116384375A
公开(公告)日:2023-07-04
申请号:CN202310346077.3
申请日:2023-03-31
Applicant: 三峡大学
IPC: G06F40/216 , G06F40/242 , G06F40/295
Abstract: 本发明涉及基于N‑gram算法并利用下游任务筛选文本的文本增强方法,包括:选用文本生成器,生成与原始文本相近的文本;设定用于评价文本生成质量的评分函数,并对每一批次生成的文本进行评分;在下游任务上对筛选出的文本进行评价;从得到的文本中选出语义通顺的文本作为下一批次文本生成过程的输入,重复生成文本得到所需数量的新文本。本发明同时采用基于N‑gram算法和加权平均的评分方式并结合下游任务评价生成文本的质量,使文本增强方法生成文本更通顺、连贯,有利于智能语言模型的训练。