学习路线
 
机器学习->
 深度学习->
 强化学习->
 深度强化学习
 
大模型演进分支
 
- 微调: SFT 监督学习
 - 蒸馏:把大模型作为导师训练小模型
 - RLHF:基于人类反馈的强化学习
 
 
PPO 近端策略优化
 
- 油门 - 重要性采样 权重 * 打分
 - 刹车 - clip 修剪:防止变化的太快
 - 老司机 - KL散度:起到一种正则化(提高泛化,防止过拟合)的作用,限制策略的变化幅度
 
 
R1的损失函数的核心逻辑
 
- 让新策略比就策略回答的更好,但又不能变化太快
 - 通过裁剪机制防止更新幅度过大,保持训练稳定
 - KL散度进一步控制新策略和某个参考策略间距离,防止模型乱跑
 让模型更聪明地进化,提升推理能力,稳定训练过程 
 
方向感?
 场景?