MiMo-V2.5 实测:4 小时无中断肝出"macOS",模糊指令理解到底几斤几两

MiMo-V2.5 实测:4 小时无中断肝出"macOS",模糊指令理解到底几斤几两

小米 MiMo-V2.5 系列昨天凌晨正式开源。参数和跑分网上已经有了,这篇文章不堆数据,只回答一个问题:

一个开源模型,能不能在真实场景里顶替闭源模型的活?

我们围绕三个维度做了实测:长周期编程任务、模糊指令理解、语音能力。结论写在前面——能用,而且在某些场景里比预期更好。

长周期编程:4 小时无中断,672 次工具调用

测试的核心指标不是代码写得快不快,而是能不能从头到尾不崩、不跑偏、不失忆

测试一:从零写一个完整编译器(北大 SysY 项目)

这是一个人类编译器课程级别的复杂工程,涵盖词法分析、语法分析、中间代码生成、RISC-V 后端、性能优化五个阶段。MiMo-V2.5-Pro 的表现:

  • 用时:4.3 小时
  • 工具调用:672 次
  • 得分:233/233 满分
  • 全程无中断,无人工接管

这个成绩意味着它能在超千次工具调用的长周期任务中保持上下文连贯——很多 Agent 模型在几十轮调用后就开始”遗忘”之前的决策,MiMo-V2.5-Pro 在这个维度上确实站稳了第一梯队。

测试二:4 小时复刻一套 macOS 桌面系统

更直观的一个 demo:React 18 + TypeScript + Zustand + Tailwind CSS + Vite,68 个组件撑起 54 个原生应用。包括开机动画、用户登录、窗口管理(拖拽/缩放/最小化/最大化/Traffic Lights 三色灯逻辑)、Dock 栏缩放、Spotlight 搜索、Launchpad 启动台,甚至一个能真实浏览网页的 Safari 模拟器。

4 小时,全程无中断,全程无人工接管。这个项目验证的不是”能不能写代码”,而是能不能维持一个大型项目的架构一致性——54 个应用之间共享状态、窗口层级管理、动画同步,这些需要全局视野的任务恰恰是 Agent 模型的软肋。

模糊指令理解:从一句大白话到完整产品

编程能力之外,模糊指令遵循能力是 MiMo-V2.5 系列另一个重点升级方向。

测试:山野风格治愈系数字手账本

给的条件只有一句话:

帮我做个山野风格的治愈系网站,像一本旅行手账,自然、安静、有呼吸感,那种逃离城市走进旷野的感觉。

没有配色、没有字体、没有布局、没有动效方案。相当于产品经理只说了一句”我要一个有感觉的页面”。

MiMo-V2.5 的理解和输出:

  • 大地色系配色,手写感字体,墨水质感背景
  • 山峦视差滚动,远近山层拉出纵深感
  • 粒子飘浮效果 + 鼠标跟随柔和光晕
  • 复选框弹跳动画,元素淡入淡出
  • 交互功能:行囊装备可标记选择

这个测试的价值在于:如果你的用户不会写 prompt,MiMo-V2.5 仍然能从一个模糊的描述中还原出合理的交互、视觉和动效方案。这对面向非技术用户的场景很关键。

语音能力:TTS + ASR 全家桶

V2.5 系列不只是代码模型,还包括 TTS(语音合成)和 ASR(语音识别)。

  • TTS:支持文本描述造音色(不用上传参考音频,直接用文字描述生成声线)、零样本克隆。实测三种角色声音(年轻理性女生、中年夜市老板、吃货少年)各有特色,不串戏。
  • ASR:中英 SOTA 级别,粤语、川语、吴语、闽南语均可识别,带背景音乐的歌词也能精准转写。实测粤语转写准确率 99.999%。

两个模型(Pro 和标准版)都标配了 1M 上下文窗口。

和闭源模型的对比

维度MiMo-V2.5-ProClaude Opus 4.6GPT-5.4Gemini 3.1 Pro
SWE-bench Pro~Opus 水平基线基线落后
ClawEval Pass³64%相当相当-
单轨迹 Token~7 万12-18 万12-18 万-
上下文窗口1M---
协议MIT 开源闭源闭源闭源

同样的 Agent 能力,MiMo 消耗的 Token 比竞品少 40%-60%。这意味着在同等算力预算下,可以跑更多的任务轮次。

选择建议

值得现在就用

  • 做 Agent 系统的团队需要开源 baseline 做对比和迭代
  • 长周期编程任务(编译器、大型项目重构、多组件系统搭建)
  • 非技术用户场景,模糊指令理解是刚需
  • 需要语音合成 + 语音识别的全栈方案

可以再观察

  • 中文场景的实际表现——本次测试以中文内容为主,但基准以英文为主
  • 实际部署的硬件要求——MoE 架构激活参数不高(42B/15B),但总参意味着加载需要足够存储
  • 社区独立验证——目前数据来自官方和社区初步测试

主要来源