Простые запросы — маленькая модель, сложные — большая. Все согласны, что это логично. Но как отличить простые от сложных? Большинство систем решают на глаз.
UCCI бьёт точно в эту проблему.
Как работает UCCI
Токенная маржинальная неопределённость для оценки сложности запроса. Не средняя уверенность всего вывода, а разница между первым и вторым токеном при генерации.
Изотоническая регрессия для маппинга неопределённости в реальную вероятность ошибки. Ключевой шаг — обеспечивает соответствие выходной вероятности фактической частоте ошибок.
Минимизация затрат при заданном качестве. Вы задаёте целевое качество (например, micro-F1 = 0.91), система находит самую дешёвую стратегию.
Результаты
75 000 реальных продакшн-запросов, модели 4B и 12B на H100:
- Снижение затрат на 31% (95% CI: [27%, 35%])
- micro-F1 на уровне 0.91
- ECE снижена с 0.12 до 0.03
- Превзошла энтропийное поромирование, split-conformal routing и FrugalGPT
Статья: UCCI