<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>读源码 - 标签 - 华华的小站</title><link>http://blog.zyhector.com/tags/%E8%AF%BB%E6%BA%90%E7%A0%81/</link><description>读源码 - 标签 - 华华的小站</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><lastBuildDate>Thu, 16 Apr 2026 12:13:00 -0700</lastBuildDate><atom:link href="http://blog.zyhector.com/tags/%E8%AF%BB%E6%BA%90%E7%A0%81/" rel="self" type="application/rss+xml"/><item><title>「从零开始学大模型」TRL GRPOTrainer 源码导读</title><link>http://blog.zyhector.com/2026/04/08-trl.grpotrainer/</link><pubDate>Thu, 16 Apr 2026 12:13:00 -0700</pubDate><author>Hector</author><guid>http://blog.zyhector.com/2026/04/08-trl.grpotrainer/</guid><description>&lt;p>这是在 Hugging Face 的 TRL &lt;a href="https://huggingface.co/docs/trl/quickstart" target="_blank" rel="noopener noreffer ">Quickstart&lt;/a> 界面里，GRPO 训练的示例。今天从这里开始，探索一下 HF 的 GRPOTrainer 是怎样实现的，涵盖普通 Training loop 与 RL/GRPO 中的 Rollout、Training 环节，为之后我们手搓 GRPO Training Loop 打下基础！&lt;/p></description></item></channel></rss>