MiMo-V2.5 実測:4 時間ノンストップで"macOS"を構築、ファジー指令理解の実力は?

MiMo-V2.5 実測:4 時間ノンストップで"macOS"を構築、ファジー指令理解の実力は?

小米 MiMo-V2.5 シリーズは今朝正式にオープンソース化されました。パラメータとベンチマークはすでにオンラインにあります。この記事は数字を積み上げるのではなく、一つの質問に答えます:

オープンソースモデルは、実際の場面でクローズドソースモデルの代わりになれるのか?

3 つの次元でテストしました:長周期プログラミング、ファジー指令理解、音声能力。結論から言うと——使えます。そして一部の場面では予想より良い結果を出しました。

長周期プログラミング:4 時間ノンストップ、672 回のツール呼び出し

テスト 1:コンパイラを一から構築(北京大学 SysY プロジェクト)

  • 時間:4.3 時間
  • ツール呼び出し:672 回
  • スコア:233/233 満点
  • 全程無中断、人工介入なし

テスト 2:4 時間で macOS デスクトップシステムを複製

React 18 + TypeScript + Zustand + Tailwind CSS + Vite、68 コンポーネントで 54 のネイティブアプリをサポート。4 時間、中断なし、人間のテイクオーバーなし。

ファジー指令理解:一行から完全なプロダクトへ

与えた条件はただ一行:

山野風のヒーリング系ウェブサイトを作って、旅行手帳のように、自然で静かで呼吸感がある、都会を逃れて荒野に入る感じ。

配色なし、フォントなし、レイアウトなし、アニメーション仕様なし。MiMo-V2.5 の理解と出力:

  • 大地色系の配色、手書き風フォント、インク質感の背景
  • 山岳パララックススクロール、粒子浮遊効果 + マウス追従ソフトグロー
  • チェックボックスバウンスアニメーション、要素フェードイン/アウト
  • インタラクティブ機能:行囊の装備をマーク・選択可能

音声能力:TTS + ASR 一式

  • TTS:テキスト記述で音色作成、ゼロサンプルクローン
  • ASR:中英 SOTA レベル、広東語、四川語、呉語、閩南語対応。広東語転写精度 99.999%

閉源モデルとの比較

次元MiMo-V2.5-ProClaude Opus 4.6
SWE-bench Pro~Opus レベルベースライン
ClawEval Pass³64%同等
単軌道 Token~7 万12-18 万
コンテキストウィンドウ1M-
ライセンスMIT オープンソース閉源

同等の Agent 能力で、MiMo の Token 消費は競合より 40%-60% 少ない。

選択アドバイス

今すぐ使うべき

  • Agent システム構築のオープンソースベースラインが必要なチーム
  • 長周期プログラミングタスク(コンパイラ、大規模リファクタリング)
  • 非技術ユーザー向け场景、ファジー指令理解が必須

もう少し観察すべき

  • 実際のデプロイハードウェア要件
  • コミュニティの独立検証

主要ソース