大语言模型对齐: 直接偏好优化(DPO)

这篇博客主要介绍一种比 RLHF 更精简的替代算法 DPO。与 RLHF 一样,DPO 目的是使模型输出与人类偏好保持一致,但它在实现上更加简单,并且对资源的需求更低。在项目资源受限的情况下,DPO 是一个实用解决方案。 ...

2025-02-08 · 9 分钟 · 4118 字 · Yue Shui