-
公开(公告)号:CN117763127B
公开(公告)日:2024-08-13
申请号:CN202410039085.8
申请日:2024-01-10
Applicant: 南京理工大学
IPC: G06F16/332 , G06F16/36 , G06F18/214 , G06N3/045 , G06N3/092
Abstract: 本发明公开了一种基于强化学习和知识库匹配的工业问答模型训练方法,包括以下步骤:S1、收集工业领域内的专业知识问答构建工业知识库,对奖励模型进行训练,针对工业知识问答,将工业问答模型的输出与工业知识库的内容进行匹配比较,根据相似度得出奖励值;S2、将奖励值按序排列,并利用排序损失函数训练更新奖励模型网络的参数;S3、进行工业问答模型训练,对奖励值加入惩罚项,并利用强化学习算法对工业问答模型进行多次训练后,获得最优策略。本发明采用上述的一种基于强化学习和知识库匹配的工业问答模型训练方法,利用强化学习算法,经过多次迭代训练,帮助工业问答模型学习理解工业专业知识,提高了工业问答模型问答的精确度。
-
公开(公告)号:CN117763127A
公开(公告)日:2024-03-26
申请号:CN202410039085.8
申请日:2024-01-10
Applicant: 南京理工大学
IPC: G06F16/332 , G06F16/36 , G06F18/214 , G06N3/045 , G06N3/092
Abstract: 本发明公开了一种基于强化学习和知识库匹配的工业问答模型训练方法,包括以下步骤:S1、收集工业领域内的专业知识问答构建工业知识库,对奖励模型进行训练,针对工业知识问答,将工业问答模型的输出与工业知识库的内容进行匹配比较,根据相似度得出奖励值;S2、将奖励值按序排列,并利用排序损失函数训练更新奖励模型网络的参数;S3、进行工业问答模型训练,对奖励值加入惩罚项,并利用强化学习算法对工业问答模型进行多次训练后,获得最优策略。本发明采用上述的一种基于强化学习和知识库匹配的工业问答模型训练方法,利用强化学习算法,经过多次迭代训练,帮助工业问答模型学习理解工业专业知识,提高了工业问答模型问答的精确度。
-