Ключевое открытие
Пользователь запустил Qwen3.6:27b на домашнем сервере в эксперименте по рекурсивной самооптимизации, увеличив скорость вывода с 2.3 до 84.3 токенов/с за 26 часов — рост более чем в 36 раз. Это было достигнуто не на GPU-кластере, а на стандартном домашнем сервере.
Среда эксперимента
| Компонент | Конфигурация |
|---|---|
| CPU | 24 потока |
| Память | 93 ГБ ОЗУ |
| GPU | AMD 9060 XT 16 ГБ |
| Модель | Qwen3.6:27b |
| Метод оптимизации | Цикл рекурсивной самооптимизации |
| Общее время | 26 часов |
Значение этого эксперимента
Для экосистемы моделей с открытым исходным кодом
Qwen3.6 27B уже является мощной моделью с открытым кодом (рейтинг Intelligence Index 46, #1 среди моделей с открытым кодом до 150B параметров), но этот эксперимент раскрывает другое измерение потенциала: модели могут не только рассуждать, но и оптимизировать свой собственный процесс рассуждения.
Выводы для локального развёртывания
Многие пользователи сталкиваются с проблемами производительности при развёртывании больших моделей локально. Этот эксперимент показывает, что при правильной стратегии оптимизации потребительское оборудование может достичь приемлемой скорости вывода.
Скорость 84.3 токенов/с приближается к скорости ответа многих облачных API, что означает, что для индивидуальных пользователей локальное развёртывание больше не является компромиссом «работает, но медленно».
Рекомендации к действию
- Пользователи с AMD GPU: Этот эксперимент доказывает возможность запуска больших моделей на AMD GPU. Если у вас есть карта AMD с 16+ ГБ, стоит попробовать.
- Пользователи Qwen3.6: Попробуйте дать модели самодиагностику и оптимизацию после развёртывания — вы можете получить неожиданное улучшение производительности.