一种基于强化学习的中医大模型及偏好对齐方法

    公开(公告)号:CN118230908A

    公开(公告)日:2024-06-21

    申请号:CN202410292348.6

    申请日:2024-03-14

    Abstract: 本发明涉及一种基于强化学习的中医大模型及偏好对齐方法,中医大模型包含基于医疗知识的中医大模型学习模块、基于偏序对的奖励模块、基于强化学习的偏好对齐模块和基于神经网络的反馈优化模块,中医大模型学习模块整合中医数据构建语料库,并在语料库上进行训练,使模型初步对齐中医领域的任务;其次采用强化学习技术通过监督学习结合偏好排序数据训练奖励模块,评估出中医大模型输出信息与人类偏好的一致性;再次采用基于强化学习的偏好对齐模块训练中医大模型的输出偏好,使中医大模型可以输出与人类偏好更为一致的回答;最后通过模糊神经网络评估文本对齐质量,建立反馈循环优化流程,实现中医大模型的个性化偏好对齐。

Patent Agency Ranking