3,5-Часовое Интервью Ло Фули: После Закрытия Разрыва в Pre-train, Agent RL Стает Решающим Фактором

Основная Оценка

Ло Фули, руководитель команды больших моделей Xiaomi, дала 3,5-часовое техническое интервью в конце апреля 2026 года.

Разрыв между ведущими китайскими командами и Anthropic в pre-training быстро сокращается.

Когда pre-training больше не является преимуществом, конкуренция переходит к Agent Reinforcement Learning.

Ло Фули раскрыла критерии выбора стажёров — люди с сильной способностью к обучению и любопытством.

Роль	Действие
Разработчики моделей	Сделать Agent RL ключевым направлением
Разработчики приложений	Использовать бесплатные токены MiMo Orbit
Соискатели	Усилить опыт работы с Agent-фреймворками