Voice-Pro: open-source стек для работы с голосом, клонирование + озвучка на 100+ языках

Возможности платных SaaS в локальном пакете

Клонирование голоса и аудио-постпродакшн контролируются коммерческими SaaS. Voice-Pro (github.com/voice-pro/voice-pro) покрывает этот стек open-source: zero-shot клонирование, Whisper-транскрипция, загрузка с YouTube, разделение вокала, озвучка на 100+ языках — всё через Gradio WebUI.

Основные возможности

Zero-shot клонирование: Загрузите образец аудио — модель клона готова без обучения
Whisper-транскрипция: Интеграция OpenAI Whisper
Загрузка с YouTube: Встроенный пайплайн
Разделение вокала: Извлечение вокала и аккомпанемента
Мультиязычная озвучка: 100+ языков

Сравнение

Возможность	Voice-Pro	ElevenLabs	Descript
Клонирование	✅ Zero-shot	✅	❌
Транскрипция	✅	✅	✅
Озвучка	✅ 100+	✅	✅
Локальный запуск	✅	❌	❌
Стоимость	Бесплатно	$5-99/мес	$12-24/мес

Быстрый старт

git clone https://github.com/voice-pro/voice-pro.git
cd voice-pro
pip install -r requirements.txt
python app.py

Минимум: NVIDIA GPU с 4GB+ VRAM.

Возможности платных SaaS в локальном пакете

Основные возможности

Сравнение

Быстрый старт

Источники

Похожие материалы

awesome-codex-skills набирает 1177 звёзд за один день, экосистема навыков Codex взрывается

AgentField: управление AI-агентами как Pod — новый игрок в AI-нативной инфраструктуре

Microsoft открывает Agent Lightning: Framework RL-обучения без вмешательства для любого AI-агента