C
ChaoBro

SU-01:一个 30B 模型,在 IMO 和 IPhO 上达到金牌水平,靠的是什么配方?

奥数金牌水平的 AI,到底意味着什么?

国际数学奥林匹克(IMO)和国际物理奥林匹克(IPhO)是人类智力竞赛的最高舞台。能在这类竞赛中拿到金牌的,通常是全球同龄人中最聪明的那批人。

当一个 AI 模型声称达到"金牌水平"时,我们需要仔细理解这个说法的含义:它不是说 AI 能参加竞赛并拿奖,而是在这些竞赛的真实题目上,AI 的解题正确率达到了金牌线的水平。

SU-01 做到了这一点——在 IMO 2025、USAMO 2026 和 IPhO 2024/2025 上。

30B 参数的"精简"模型

值得注意的是,SU-01 的 backbone 只有 30B 参数(其中 active 3B,典型的 MoE 架构)。这不是一个数千亿参数的巨型模型。

这传递了一个重要信号:在推理任务上,训练方法和数据质量可能比单纯的参数规模更关键。

训练配方:三步走

论文的核心贡献是一个"简单统一的配方"(simple and unified recipe),分三步:

第一步:反向困惑度 SFT 课程

传统 SFT(监督微调)的做法是让模型学习"正确答案"。但 SU-01 用了一种不同的策略——反向困惑度课程(reverse-perplexity curriculum)

这里的直觉是:对于复杂证明,模型应该学习"从结论倒推"的搜索行为,而不是单纯模仿正向推理过程。通过这种方式,模型学会了严谨的证明搜索和自我检查行为。

第二步:两阶段 RL

  • 阶段一:带可验证奖励的 RL。用客观可验证的结果作为奖励信号(比如数学题的最终答案是否正确)。
  • 阶段二:证明级 RL。更精细的奖励机制,不仅看最终答案,还评估证明过程的质量。

从粗粒度奖励到细粒度奖励的渐进,确保模型既能得到明确的学习信号,又不会在早期就被过于复杂的奖励函数混淆。

第三步:测试时缩放

在推理阶段增加计算量(更长的思考链、更多的采样),进一步推高解题性能。

训练数据量

SFT 阶段使用了约 34 万条 sub-8K-token 轨迹,RL 阶段跑了 200 步。对于一个 30B 模型来说,这个数据量算不上庞大,但质量显然是关键。

超长推理轨迹

SU-01 能稳定处理超过 10 万 token 的推理轨迹。这意味着在解决最难的奥数题目时,模型可以持续"思考"——生成和验证中间步骤,而不是在几百个 token 后就停止。

这种长轨迹推理能力是奥数级解题的必要条件。一道 IMO 级别的题目,完整证明可能需要数十步推理和多次自我修正。

泛化能力

论文还报告了模型在数学和物理之外的科学推理领域的泛化表现。虽然具体数字没有在这里展开,但这个趋势值得关注——一套在数学/物理上验证有效的训练方法,可能可以迁移到其他需要严谨推理的领域。

评价

SU-01 的意义不在于某个具体的技术创新,而在于它整合了一套可复现的、端到端的训练流程:从 SFT 到 RL 到测试时缩放,每一步都有明确的设计原则和实验支撑。

对于想构建 reasoning 模型的团队来说,这份 77 页的技术报告更像是一本实操手册——它告诉你每一步该怎么做,而不是只展示最终结果。


主要来源:

  • arXiv:2605.13301 SU-01
  • Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li, Zhilin Wang, Jiacheng Chen, Futing Wang, Xuyang Hu, Yuchen Fan, Bangjie Xu, Yucheng Su, Xinmiao Han, Chenxi Li, Haodi Lei, Yufeng Zhao, Zejin Lin, Qianjia Cheng, Tong Zhu, Xiaoye Qu, Ganqu Cui, Peng Ye, Yun Luo, Zhouchen Lin, Yu Qiao, Bowen Zhou, Ning Ding, Yu Cheng 等 28 位作者
  • Technical Report, 77 pages