概要
Xiaomiは4月30日にMiMo-V2.5-ASRをオープンソース化した。音声認識(ASR)に特化したモデルで、複数の中国方言をネイティブにサポート。
| 能力 | 説明 |
|---|---|
| 普通話 | 標準中国語音声テキスト変換 |
| 英語 | 標準英語音声テキスト変換 |
| 呉語 | 上海語、蘇州語など |
| 広東語 | 广东語 |
| 闽南語 | 福建・台湾闽南語 |
| 四川話 | 西南官話 |
| 楽曲認識 | 音楽付き音声コンテンツ |
| ノイズ環境 | 騒がしい場面でのロバスト認識 |
| マルチスピーカー | 同時複数話者認識 |
技術ハイライト
- 統一アーキテクチャ:方言ごとに独立モデルではなく、単一モデルで全方言を処理
- ノイズ・音楽シーン対応:音声特徴抽出能力が高いレベルに到達
- マルチスピーカー認識:話者分離・切り替え検出・独立タグ付けをネイティブサポート
アクション推奨
- 開発者: GitHubリポジトリのライセンス条項に注目、方言データをテスト
- プロダクトマネージャー: 中国市場で方言ASRの明確なユーザーニーズ(数億人の方言話者)
Xiaomi MiMo-V2.5-ASRリリース情報とオープンソースコミュニティ議論に基づく。