Основной вывод
«SWE-chat: Coding Agent Interactions From Real Users in the Wild» выпускает беспрецедентный датасет: 6000 реальных сессий coding-агентов разработчиков с полными промптами, записями вызовов инструментов и построчной атрибуцией кода человек vs агент.
Обзор датасета
| Измерение | Данные |
|---|---|
| Сессии | 6,000+ |
| Разработчики | Реальные инженеры из нескольких компаний |
| Записано | Промпты, вызовы инструментов, модификации кода, конечные результаты |
| Гранулярность | Построчная атрибуция кода человек vs агент |
Ключевые находки
1. Автономность агента сильно зависит от типа задачи
| Тип задачи | Уровень автономности | Типичный сценарий |
|---|---|---|
| Простой рефакторинг | 75-85% | Переименование переменных, извлечение функций |
| Исправление багов | 55-70% | Исправления известных ошибок, обработка граничных условий |
| Реализация новых функций | 40-55% | Модули средней сложности |
| Проектирование архитектуры | 15-30% | Системное проектирование, выбор технологий |
Ключевой инсайт: агенты превосходно справляются с «четко определёнными» задачами, но нуждаются в значительном вмешательстве человека для «размытых требований».
2. Паттерны вызовов инструментов раскрывают узкие места воркфлоу
- Чтение файлов доминирует (~40%): агенты тратят значительное время на понимание существующего кода
- Редактирование кода (~35%): фактическая модификация кода
- Запуск тестов низкий (~15%): агенты реже запускают тесты, чем ожидалось
Это предполагает, что узкое место — не способность писать код, а эффективность понимания существующих кодовых баз.
Рекомендации
| Ваша роль | Действие |
|---|---|
| Пользователи coding-агентов | Пусть агенты делают простой рефакторинг и исправление багов, люди фокусируются на архитектуре |
| Разработчики Agent-фреймворков | Интегрируйте обнаружение циклов и graceful degradation |
| Исследователи | Используйте SWE-chat для обучения reward-моделей |
| Техменеджеры | Устанавливайте реалистичные ожидания на основе данных датасета |
Доступ к датасету: Через ссылку в статье.