Qwen3.6 27B самооптимизируется на домашнем сервере: рекурсивная эволюция от 2.3 до 84.3 токенов/с за 26 часов

Qwen3.6 27B самооптимизируется на домашнем сервере: рекурсивная эволюция от 2.3 до 84.3 токенов/с за 26 часов

Ключевое открытие

Пользователь запустил Qwen3.6:27b на домашнем сервере в эксперименте по рекурсивной самооптимизации, увеличив скорость вывода с 2.3 до 84.3 токенов/с за 26 часов — рост более чем в 36 раз. Это было достигнуто не на GPU-кластере, а на стандартном домашнем сервере.

Среда эксперимента

КомпонентКонфигурация
CPU24 потока
Память93 ГБ ОЗУ
GPUAMD 9060 XT 16 ГБ
МодельQwen3.6:27b
Метод оптимизацииЦикл рекурсивной самооптимизации
Общее время26 часов

Значение этого эксперимента

Для экосистемы моделей с открытым исходным кодом

Qwen3.6 27B уже является мощной моделью с открытым кодом (рейтинг Intelligence Index 46, #1 среди моделей с открытым кодом до 150B параметров), но этот эксперимент раскрывает другое измерение потенциала: модели могут не только рассуждать, но и оптимизировать свой собственный процесс рассуждения.

Выводы для локального развёртывания

Многие пользователи сталкиваются с проблемами производительности при развёртывании больших моделей локально. Этот эксперимент показывает, что при правильной стратегии оптимизации потребительское оборудование может достичь приемлемой скорости вывода.

Скорость 84.3 токенов/с приближается к скорости ответа многих облачных API, что означает, что для индивидуальных пользователей локальное развёртывание больше не является компромиссом «работает, но медленно».

Рекомендации к действию

  • Пользователи с AMD GPU: Этот эксперимент доказывает возможность запуска больших моделей на AMD GPU. Если у вас есть карта AMD с 16+ ГБ, стоит попробовать.
  • Пользователи Qwen3.6: Попробуйте дать модели самодиагностику и оптимизацию после развёртывания — вы можете получить неожиданное улучшение производительности.