DeepSeek蒸馏 CoT 详解强化学习 RLHF 微调与对齐 效果优化及其实践 大模型算法:强化学习 SFT 当当网 DPO GRPO
商品详情
  • 相关推荐