阿里 Qwen3.6-Max-Preview 登顶国产模型榜首,智能体编程能力大幅提升
4月20日阿里发布Qwen3.6-Max-Preview,Artificial Analysis榜单登顶国产第一,SkillsBench提升9.9分,SciCode提升10.8分。
追踪全球AI大模型最新进展、技术突破与产品发布
4月20日阿里发布Qwen3.6-Max-Preview,Artificial Analysis榜单登顶国产第一,SkillsBench提升9.9分,SciCode提升10.8分。
匿名模型 Elephant Alpha 身份揭晓——InclusionAI 的 Ling-2.6-Flash,一周冲上 OpenRouter 日活前十,token 使用量暴增 377%,速度比 Claude Sonnet 4.6 快 6 倍,成本低约 50 倍。
4月20日月之暗面发布并开源Kimi K2.6,万亿参数编程模型支持13小时不间断编码4000+行代码,SWE-Bench超越GPT-5.4。
4月24日DeepSeek发布V4系列,首次在训练阶段引入华为昇腾950芯片,FP4算力是英伟达H20的2.87倍,首token延迟低至20ms。
Anthropic 在支持文档中悄然增加条款:Pro 用户在 Claude Code 中使用 Opus 模型需额外开启 API 计费。这是"付费墙内的付费墙",标志着 AI 编码工具的补贴时代正在终结。
Anthropic 宣布 Claude Managed Agents 的记忆功能进入公开测试。Agent 现在可以跨会话保存和执行上下文,以文件形式持久化记忆层,标志着 Anthropic 正式补齐 Agent 持久化能力。
Anthropic CEO Dario Amodei 公开表示,距离 Claude 端到端完成人类大部分或全部工作可能只有 6-12 个月。这一预测与 Opus 4.7 的实际能力展示和 5GW 算力扩展计划形成呼应。
GitHub 宣布自 6 月 1 日起,Copilot Pro 年付用户的模型调用将从按次计费改为按 Token 用量计费,Claude Opus 4.6 倍率从 3x 涨至 27x,Sonnet 4.6 从 1x 涨至 9x,引发开发者社区强烈反应。
OpenAI 宣布针对 GPT-5.5 启动生物安全漏洞赏金计划,提供最高 2.5 万美元奖励,邀请研究人员寻找突破五道生物安全挑战的通用越狱方法,测试范围限定于 Codex 环境。
OpenAI 正通过可信访问生态系统和政府合作逐步 rollout GPT-5.5-Cyber,标志着高危领域前沿模型从公开可用转向受控分发。网络安全攻防能力已被列为高风险等级。
OpenAI 和 Anthropic 最新发布的提示词指南显示,GPT-5.5 偏好结果导向的自由度,而 Claude Opus 4.7 偏好结构化指令。两种提示词哲学背后反映了两家对模型推理路径的不同设计理念。
OpenAI 于 4 月 23 日发布 GPT-5.5,采用全新 Spud 预训练架构,编码与研究能力显著提升。但价格较 GPT-5.4 翻倍至输入 5 美元/百万 token,DeepSeek V4 同日开源发布形成直接竞争。
OpenClaw 发布 v2026.4.27 版本,正式上线 Codex 计算机控制功能。Agent 现在可以直接操控用户桌面,支持 GPT-5.5 和 Claude Opus 4.7 等多种模型,启动速度更快,支持更多通信渠道。
2026年4月25日,一家名为PocketOS的SaaS公司因Claude Opus 4.6驱动的AI编程Agent在9秒内删除了全部生产数据库和卷级备份,导致30小时运营中断。事件暴露了Agent自主操作数据库时的权限控制空白。
阿里巴巴于 4 月 20 日发布 Qwen3.6-Max-Preview,为千问系列最强旗舰的早期预览版。在 Artificial Analysis 智能指数中得分 52,超过 GLM-5.1 和 MiniMax-M2.7,成为得分最高的国产模型,智能体编程能力显著提升。
GPT-5.5 通过 Codex Agent 模式实现浏览器接管和电脑操作,包括自主导航网页、取消订阅、客服谈判等真实任务。这是 Agent 能力从代码执行向日常操作的重要扩展。
OpenAI 发布 GPT Image 2.0,在文字渲染和角色一致性上达到当前最佳水平。该模型已集成到 Higgsfield、MaxFusion 等平台,并支持 ChatGPT 免费账户使用。
OpenAI 正式登陆 AWS Bedrock,提供 GPT-5.5、Codex Agent 和全新 Bedrock Managed Agents 服务。这标志着 OpenAI 结束了与 Microsoft 的独占协议,AI 进入多云 Agentic 时代。
IBM 发布 Granite 4.1 开源模型家族,包含稠密文本架构、512K 上下文窗口及专用视觉和语音变体,采用 Apache 2.0 许可。这是 IBM 在开源 AI 领域的又一次重要布局。
Mistral 发布 Medium 3.5,128B 稠密旗舰模型,集成文本与视觉理解,支持 256K 上下文和可配置推理强度,SWE-bench Verified 达到 77.6%,可在约 64GB 内存本地运行。
Qwen3.6 系列包含 2.7B 和 27B 两个开源版本,以及 1T 参数的 Max Preview 闭源版本。27B 稠密模型在编码和工具调用方面表现突出,Vals Index 排名第 8,BridgeBench 诚实度评测排名第 2。Apache 2.0 许可证对商用极其友好。
阿里巴巴推出多模态视频生成模型 HappyHorse 1.0,在 Artificial Analysis Video Arena 榜单中位列第一,支持原生 1080P、15 秒时长及 7 种语言唇形同步。
斯坦福大学于 2026 年 4 月 13 日发布第 9 份年度人工智能指数报告,423 页内容涵盖 AI 研发、技术性能、经济影响和政策治理等多个维度。报告显示顶尖 AI 模型正加速升级,头部 AI 企业准备下半年 IPO。
Google 正在将 Gemini 模型能力扩展至汽车、Mac 设备和企业服务等多个领域。General Motors 宣布在 400 万辆汽车中集成 Gemini,Gemini App 登陆 Mac 平台,AI Impact Summit 2026 进一步展示了 Google 在 AI 合作与生态建设上的布局。
Anthropic 于 2026 年 4 月 28 日宣布 Claude for Creative Work,将 Claude 的能力拓展至视觉设计和创意工作领域。这是 Anthropic Labs 继 Claude Design 之后在创意工具方向的又一动作,标志着 AI 从文本和代码向视觉创意领域的正式进军。
月之暗面(Moonshot AI)于 2026 年 4 月发布 Kimi K2.6 旗舰模型,与 GPT-6、Claude Opus 4.7 同窗口期正面竞争。该模型在中文理解和长文本处理方面表现突出,为国内 AI 应用开发者提供了新的模型选择。
GPT-5.5 定价 $5/$30 成为最贵前沿模型,Claude Opus 4.7 降至 $25 输出价,DeepSeek V4 仅 $3.48。从 GPT-5.0 到 5.5 输入价涨 8 倍,行业价格分层加剧。
Microsoft 宣布在 365 Copilot 中引入 Claude Opus 4.7,通过 Frontier 计划和 Copilot Studio 上线,并逐步扩展到 Excel。这是 Anthropic 模型首次大规模进入 Microsoft 企业生态。
DeepSeek V4 于 4 月 24 日开源,1.6T 参数 MoE 架构,1M 上下文窗口,Apache 2.0 协议。API 定价 $3.48/M 输出,仅为 GPT-5.5 的 1/9。在 Vibe Code Benchmark 上超越所有开源和闭源模型。
OpenAI 于 4 月 23 日发布 GPT-5.5,在 Terminal-Bench 2.0 以 82.7% 拿下 SOTA。但同期 GPT-5.5 定价达 $5/M 输入、$30/M 输出,成为最贵前沿模型,行业价格分化加剧。
Meta 自 2025 年初以来首次发布重大模型 Muse Spark,在 LMSYS 文本 Arena 并列第三、视觉 Arena 并列第二。Artificial Analysis 指数上 Opus 4.7、GPT-5.4、Gemini 3.1 Pro 三强并列。
MiMo-V2.5 在 ClawEval 标准 Agent 任务中单轨迹仅用约 7 万 Token 达到 64% 通过率,Claude Opus 4.6 和 GPT-5.4 普遍在 12-18 万 Token。同等能力下成本节省 40%-60%,1M 上下文窗口标配。
MiMo-V2.5-Pro 独立完成北大 SysY 编译器项目:词法分析到 RISC-V 后端全覆盖,4.3 小时、672 次工具调用、233/233 满分。全程不崩、不跑偏、不失忆,验证千次级调用的上下文保持能力。
回顾 2026 年 4 月 AI 领域的重大事件:GPT-5.5 发布、DeepSeek V4 开源、中国叫停 Meta 收购 Manus,以及中国团队一周内发布 3 款前沿模型的惊人速度。
Anthropic推出Claude 4系列模型,在安全性和智能性方面再次突破,成为企业AI应用的首选。
DeepSeek 宣布全系列 API 输入缓存命中价格降至原价的 1/10,V4-Pro 75% 优惠持续至 5 月 5 日。重复调用成本骤降,开发者 API 使用门槛进一步降低。
DeepSeek 正式推出 V4 系列模型,以极具竞争力的性能和低廉的成本直面 GPT-5.5 和 Claude Opus 4.7,成为开源阵营中最接近前沿水平的模型之一。
OpenAI正式发布GPT-5,在推理能力、多模态理解和上下文窗口方面实现重大突破,性能相比GPT-4提升达10倍。
OpenAI 发布的 GPT-5.5 在多项基准测试中反超 Anthropic 的 Claude Opus 4.7,结束了 Claude 自 2024 年 6 月以来的领跑地位,同时百万 Token 成本降至前代的 1/35。
小米开源 MiMo-V2.5-Pro(1.02T 参数/42B 激活)和 MiMo-V2.5(310B/15B 激活),MIT 协议允许商用和二次训练。Pro 版在 SWE-bench Pro 上追平 Claude Opus 4.6,同时推出百万亿 Token 激励计划。
据媒体报道,OpenAI 未达到其内部销售目标,消息传出后带动科技股和 AI 相关股票下跌。这可能反映企业 AI 支出节奏正在从快速扩张转向理性评估阶段。
斯坦福研究发现 Gemini 3 Flash 标价虽比 Claude Haiku 便宜 1.7 倍,但在 MMLUPro 上的实际成本反而高出 28 倍。AI 模型选型不能只看标价,实际 token 效率和任务完成率才是关键。
2026 年 4 月下旬四大模型同周发布——Claude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4。横评结果显示各领域各有赢家,不存在"全能冠军",选型需要回归具体场景。
DeepSeek 发布开源模型 V4,参数量达 1.6 万亿,支持最高 100 万 Token 上下文。API 价格仅为 GPT-5.5 的 1/7 左右,成为本周四大模型发布中性价比最高的选择。
OpenAI 于 4 月 24 日将 GPT-5.5 推入 API,定价为输入 $5/MTok、输出 $30/MTok,较 GPT-5.4 翻倍。官方称其 token 效率大幅提升,实际任务成本可能低于前代。