-
公开(公告)号:CN118230908A
公开(公告)日:2024-06-21
申请号:CN202410292348.6
申请日:2024-03-14
Applicant: 河南科技大学
Abstract: 本发明涉及一种基于强化学习的中医大模型及偏好对齐方法,中医大模型包含基于医疗知识的中医大模型学习模块、基于偏序对的奖励模块、基于强化学习的偏好对齐模块和基于神经网络的反馈优化模块,中医大模型学习模块整合中医数据构建语料库,并在语料库上进行训练,使模型初步对齐中医领域的任务;其次采用强化学习技术通过监督学习结合偏好排序数据训练奖励模块,评估出中医大模型输出信息与人类偏好的一致性;再次采用基于强化学习的偏好对齐模块训练中医大模型的输出偏好,使中医大模型可以输出与人类偏好更为一致的回答;最后通过模糊神经网络评估文本对齐质量,建立反馈循环优化流程,实现中医大模型的个性化偏好对齐。
-
公开(公告)号:CN118155860A
公开(公告)日:2024-06-07
申请号:CN202410437148.5
申请日:2024-04-11
Applicant: 河南科技大学
Abstract: 本发明公开一种中医大模型偏好对齐方法、设备及介质,涉及自然语言处理技术领域。该方法包括:构建标准化语料库,并采用自监督学习策略和有监督学习策略在标准化语料库上训练第一预训练语言模型,得到初步对齐的中医大模型;构建数据偏序对,并采用强化学习技术基于数据偏序对训练第二预训练语言模型,得到训练好的奖励模型;根据初步对齐的中医大模型和训练好的奖励模型,进行基于强化学习的中医大模型偏好对齐,得到经过偏好对齐后的中医大模型;根据经过偏好对齐后的中医大模型,进行基于神经网络的模型反馈优化,得到最终优化后的中医大模型。本发明能够实现中医大模型的个性化偏好对齐,使模型能够生成与人类偏好更为一致的回答。
-