Voice-Pro: open-source стек для работы с голосом, клонирование + озвучка на 100+ языках

Voice-Pro: open-source стек для работы с голосом, клонирование + озвучка на 100+ языках

Возможности платных SaaS в локальном пакете

Клонирование голоса и аудио-постпродакшн контролируются коммерческими SaaS. Voice-Pro (github.com/voice-pro/voice-pro) покрывает этот стек open-source: zero-shot клонирование, Whisper-транскрипция, загрузка с YouTube, разделение вокала, озвучка на 100+ языках — всё через Gradio WebUI.

Основные возможности

  • Zero-shot клонирование: Загрузите образец аудио — модель клона готова без обучения
  • Whisper-транскрипция: Интеграция OpenAI Whisper
  • Загрузка с YouTube: Встроенный пайплайн
  • Разделение вокала: Извлечение вокала и аккомпанемента
  • Мультиязычная озвучка: 100+ языков

Сравнение

ВозможностьVoice-ProElevenLabsDescript
Клонирование✅ Zero-shot
Транскрипция
Озвучка✅ 100+
Локальный запуск
СтоимостьБесплатно$5-99/мес$12-24/мес

Быстрый старт

git clone https://github.com/voice-pro/voice-pro.git
cd voice-pro
pip install -r requirements.txt
python app.py

Минимум: NVIDIA GPU с 4GB+ VRAM.

Источники