Всё ещё маршрутизируете LLM наугад? Эта статья снижает затраты на 31% с помощью калибровки неопределённости

Простые запросы — маленькая модель, сложные — большая. Все согласны, что это логично. Но как отличить простые от сложных? Большинство систем решают на глаз.

UCCI бьёт точно в эту проблему.

Как работает UCCI

Токенная маржинальная неопределённость для оценки сложности запроса. Не средняя уверенность всего вывода, а разница между первым и вторым токеном при генерации.

Изотоническая регрессия для маппинга неопределённости в реальную вероятность ошибки. Ключевой шаг — обеспечивает соответствие выходной вероятности фактической частоте ошибок.

Минимизация затрат при заданном качестве. Вы задаёте целевое качество (например, micro-F1 = 0.91), система находит самую дешёвую стратегию.

Результаты

75 000 реальных продакшн-запросов, модели 4B и 12B на H100:

Снижение затрат на 31% (95% CI: [27%, 35%])
micro-F1 на уровне 0.91
ECE снижена с 0.12 до 0.03
Превзошла энтропийное поромирование, split-conformal routing и FrugalGPT

Статья: UCCI

Как работает UCCI

Результаты

Похожие материалы

Claude Code поддерживает Artifacts: кодовые агенты наконец начинают предоставлять «интерактивные страницы»

Claude Platform поддерживает Workload Identity Federation: эпоха API-ключей отодвинута ещё на шаг