C
ChaoBro

Xiaomi MiMo-V2.5-ASR с открытым исходным кодом: распознавание диалектов у, кантонского, миньнань

Xiaomi MiMo-V2.5-ASR с открытым исходным кодом: распознавание диалектов у, кантонского, миньнань

Что произошло

Xiaomi открыла исходный код MiMo-V2.5-ASR 30 апреля — модель для распознавания речи (ASR) с нативной поддержкой китайских диалектов.

ВозможностьОписание
МандаринскийСтандартный китайский
АнглийскийСтандартный английский
УШанхайский, Сучжоуский
КантонскийГуандунский
МиньнаньФуцзянь, Тайвань
СычуаньскийЮго-западный мандарин
Распознавание песенРечевой контент с музыкой
Шумная средаУстойчивое распознавание
Мульти-спикерОдновременное распознавание

Технические особенности

  • Единая архитектура: одна модель для всех диалектов
  • Поддержка шума и музыки: высокий уровень извлечения акустических признаков
  • Мульти-спикер: нативная поддержка без сторонних инструментов

Рекомендации

  • Разработчики: Следите за лицензией на GitHub, тестируйте свои данные диалектов
  • Продакт-менеджеры: Распознавание диалектов имеет чёткий спрос в Китае (сотни миллионов носителей)

На основе информации о релизе Xiaomi MiMo-V2.5-ASR.