Microsoft открывает VibeVoice: передовая модель голосового ИИ с ASR, TTS и клонированием голоса

Microsoft открывает VibeVoice: передовая модель голосового ИИ с ASR, TTS и клонированием голоса

Microsoft недавно открыла проект VibeVoice на GitHub, опубликовав свой стек технологий голосового ИИ под открытой лицензией. К концу апреля проект набрал 45 709 звёзд и более 5 100 форков, став одним из самых активных проектов голосового ИИ с открытым исходным кодом на GitHub.

VibeVoice — это не одна модель, а полный инструментарий, охватывающий автоматическое распознавание речи (ASR), синтез речи (TTS) и клонирование голоса. Структура проекта чётко организована: vibevoice/ содержит код основной модели, demo/ предоставляет интерактивный интерфейс на Gradio, finetuning-asr/ поддерживает кастомную настройку ASR, а vllm_plugin/ реализует интеграцию с движком вывода vLLM.

Что касается активности коммитов, проект за последние две недели получил несколько существенных обновлений: в демо ASR добавлена поддержка MPS/Apple Silicon, в плагине vLLM исправлена проблема OOM при валидации длительности аудио, документация и руководство по внесению вклада продолжают улучшаться. К концу апреля в проекте было 134 коммита и 796 исторических коммитов (с учётом разных веток).

Примечательно, что VibeVoice придерживается практичного инженерного подхода. Добавление плагина vLLM означает возможность подключения к существующей инфраструктуре вывода больших моделей, снижая порог развёртывания. Поддержка Apple Silicon позволяет пользователям Mac запускать демо ASR локально, не полагаясь на GPU-серверы.

Для разработчиков, нуждающихся в голосовых возможностях, VibeVoice привлекает своей полнотой — большинство проектов голосового ИИ с открытым исходным кодом фокусируются либо на ASR, либо на TTS, тогда как VibeVoice пытается охватить весь конвейер. Однако как недавно открытый проект, его экосистема сообщества и зрелость документации ещё нуждаются во времени. Рекомендуем сначала запустить демо, прежде чем оценивать его для использования в производстве.

Основные источники: