C
ChaoBro

AMD Halo Box:128GB 共享内存 Mini PC,2000 美元档的本地 AI 推理革命

AMD Halo Box:128GB 共享内存 Mini PC,2000 美元档的本地 AI 推理革命

核心结论

AMD 计划于 2026 年 6 月推出 Halo Box——一款搭载 Ryzen AI MAX+ 395 处理器的 Mini PC,配备 128GB 统一共享内存,支持完整 ROCm 软件栈,定价 $2,000-3,000。这是首个在消费级价格段提供 200B 参数模型本地推理能力的产品。

对于厌倦了云端 API 按 token 计费、关注数据隐私的开发者,这是一个值得认真对待的信号。

硬件规格拆解

组件规格意义
CPURyzen AI MAX+ 395 (16 Zen 5 核心)通用计算能力强
GPU40 RDNA 3.5 计算单元GPU 推理核心
NPUXDNA 2 (16 TOPS)低功耗常驻 AI 任务
内存128GB 统一共享CPU/GPU/NPU 共享,零拷贝
ROCm完整支持兼容 PyTorch、vLLM 等主流框架
价格$2,000-3,000消费级定价

关键创新在于统一共享内存。传统 GPU 推理需要将模型从系统内存加载到 GPU 显存,这个过程受限于 PCIe 带宽。而 Halo Box 的 CPU、GPU 和 NPU 共享同一片 128GB 内存池,意味着:

  • 零数据传输开销:模型加载后,所有计算单元直接访问同一份数据
  • 128GB = 可用模型大小:不像独立显存只有 24GB/48GB,128GB 可以容纳 70B-200B 参数的模型(取决于量化精度)
  • 成本优势显著:一块 NVIDIA H100 80GB 的单价就超过 $25,000

能跑什么模型?

以 INT4 量化为例:

模型量化后大小Halo Box 可否运行
Llama 3.1 70B~35GB✅ 轻松运行
Qwen3.6-35B~18GB✅ 绰绰有余
DeepSeek V4 MoE~70GB✅ 可运行
Grok-1 314B~157GB⚠️ 接近极限
200B 稠密模型~100GB✅ 可运行

社区反馈已经有人用 24GB 显存运行 Qwen 3.6 27B/35B 做本地 battle sims,Halo Box 的 128GB 共享内存将把这个能力提升到完全不同的量级。

对标分析:Halo Box vs NVIDIA DGX Spark

维度AMD Halo BoxNVIDIA DGX Spark
价格$2,000-3,000$4,000-5,000+
内存128GB 统一共享64GB LPDDR5X
GPU 算力40 RDNA 3.5 CUGrace + Orin
软件生态ROCm (持续改善中)CUDA (成熟)
目标用户开发者/爱好者企业开发者

NVIDIA 的优势在 CUDA 生态的成熟度和稳定性。但 AMD 的 ROCm 在过去一年进步显著,PyTorch 原生支持正在完善。对于不依赖 CUDA 专有优化的工作负载,Halo Box 的性价比优势明显。

格局判断:本地推理的”iPhone 时刻”?

Halo Box 的发布可能标志着本地 AI 推理进入一个新的阶段:

  1. 价格门槛打破:$2,000-3,000 意味着个人开发者和小团队都能负担
  2. 模型选择自由:不再受限于云端 API 支持的模型,可以运行任何开源权重
  3. 数据主权回归:敏感数据完全不出本地,满足合规要求
  4. 零边际成本:推理没有按 token 计费,用量越大越划算

Intel 最近也提到 CPU-to-GPU 部署比例正在从 1:8 收紧到 1:4,Agentic Inferencing 场景甚至可能达到 1:1。这意味着未来的 AI 工作负载不会全部集中在 GPU 集群,边缘推理将成为重要补充。

行动建议

你的场景建议
日常 API 调用成本高Halo Box 的推理成本趋近于电费,月用量超过 $500 API 费用的团队值得考虑
数据隐私敏感医疗、金融、法律等行业,本地部署是合规刚需
模型实验/微调128GB 内存可以做 LoRA 微调,不需要租云端 GPU
已有 NVIDIA 生态如果深度依赖 CUDA 优化库(如 TensorRT),暂时观望 ROCm 成熟度

上市时间:2026 年 6 月。建议关注 ROCm 对热门开源模型(Qwen、Llama、DeepSeek)的优化进度。