Claude Code 支持 Artifacts:代码代理终于开始交付“能看的现场”
Claude Code 6 月 18 日加入 Artifacts,可把会话产物变成团队可分享的实时页面。代码代理正在从改文件走向交付现场。
追踪全球AI大模型最新进展、技术突破与产品发布
Claude Code 6 月 18 日加入 Artifacts,可把会话产物变成团队可分享的实时页面。代码代理正在从改文件走向交付现场。
Claude 6 月 18 日推出 MCP 连接器企业托管授权,先从 Okta 开始。Agent 进入企业工作流,身份治理比模型参数更急。
Claude Platform 6 月 17 日让 Workload Identity Federation GA。静态 API Key 继续退场,Agent 工作负载开始走企业身份联邦。
Google 6 月 17 日发布 Agentic Resource Discovery 开放规范,用 catalog、registry 和信任元数据解决 Agent 找工具的问题。
OpenAI 6 月 3 日确认 Agent Builder 和 Evals 将于 11 月 30 日关停。长期 Agent 工作流要回到 SDK 与自有代码里。
Chrome 开发团队正式发布了 chrome-devtools-mcp,一个为 AI 编程代理提供浏览器 DevTools 能力的 MCP 服务器。这意味着 Claude Code、Cursor 等 AI 编程工具可以直接操控浏览器——检查 DOM、调试网络请求、分析性能。GitHub 上该项目已获得超过 4 万 star。
Google 在 I/O 2026 大会上展示了用 Agentic AI 彻底重构搜索的计划。未来的 Google 搜索不再是一个"输入关键词、返回链接列表"的工具,而是一个能自主执行复杂任务的智能代理。这不仅是搜索的升级,更是对整个搜索引擎商业模式的挑战。
Google 开发的 SynthID AI 水印技术正成为行业事实标准——OpenAI、Nvidia 等头部公司已宣布采用。这项能在 AI 生成内容中嵌入不可见标识的技术,为 Deepfake 治理和 AI 内容溯源提供了新的技术路径。但水印攻防战才刚刚开始。
SpaceX 在 IPO 文件中首次公开披露其 AI 基础设施战略:利用 Starlink 卫星网络构建轨道数据中心集群,为 xAI 的 Grok 模型提供算力支持。与此同时,Grok 在与 ChatGPT、Claude、Gemini 的竞争中持续落后。SpaceX 正试图用太空算力弯道超车。
Trump 原定签署的 AI 安全测试行政令签署仪式被突然取消,原因是 Anthropic、OpenAI 等头部 AI 公司 CEO 集体拒绝出席。Trump 随后声称该行政令会成为创新"阻碍者"。这场戏剧性的对峙揭示了美国政府与 AI 行业之间日益紧张的信任关系。
据The Information报道,Anthropic正在与微软洽谈租用搭载Maia 200芯片的Azure服务器。在SpaceX每年150亿美元的超级协议之外,Claude的算力需求正在溢出Google的供应能力。
ChromeDevTools团队官方发布了Chrome DevTools MCP,让AI编程代理可以直接通过标准协议操控浏览器开发者工具。上线即获40,445星,标志着浏览器调试正在进入Agent时代。
codegraph通过预索引代码知识图谱,让Claude Code、Cursor等AI编程代理减少token消耗和工具调用,全部本地运行。GitHub Trending今日增速第一,背后是AI编程效率的痛点被精准击中。
特朗普原定于周四签署的AI行政令在最后一刻被推迟,理由是"我不喜欢看到的内容"。这份原本要推行的自愿参与框架,究竟触动了谁的利益?
Waymo的无人出租车再次在积水中陷入困境,亚特兰大服务紧急暂停——加上此前圣安东尼奥的类似问题,Waymo的自动驾驶在恶劣天气面前的脆弱性再次暴露。NHTSA和NTSB的双重调查仍在进行中。
中科大提出 ACC,将 Agent 的运行轨迹编译为长上下文训练数据,让模型从轨迹中学习推理模式,而不是简单模仿输出。HuggingFace 今日论文。
上海交大开源 ARIS,用对抗式多智能体协作做自主学术研究,执行器往前推进、审查器挑毛病,119 票登上 HuggingFace 热榜。
NYU 等团队的 Cambrian-P 将姿态信息引入视频理解模型,CVPR 2026 接收。视频不再只是"一堆帧",而是带有人体运动语义的结构化信号。
Figure AI 的 Figure 03 机器人通过 24/7 直播展示连续 48 小时无故障自主分拣包裹,搭载 Helix 02 神经络系统实现全身控制和长程自主决策,成为 viral 事件。
Google I/O 2026 发布 Gemini 3.5 Flash,在 Agent 和编码基准上达到前沿水平,速度是竞品的 4 倍,3.5 Pro 下月跟进。
Google I/O 2026 宣布 AI Search 全面 Agent 化,搜索从返回链接列表变为自主执行任务——订餐厅、比较产品、规划行程,搜索正在从信息检索工具变成执行引擎。
字节发布 Lance,用双流 MoE 架构同时做多模态理解和生成,不拼模型规模拼架构设计,在开源统一模型里图像和视频生成表现突出。
π-Bench 提出评估主动型个人助手在长周期工作流中的表现,AI 助手从"被动执行"向"主动预判"转变,评测方法也需要跟上。HuggingFace 今日论文 45 票。
SpaceX 的 S-1 文件披露,公司正式合并 xAI,将 AI 定位为未来核心业务,宣称拥有 26.5 万亿美元可寻址市场,但 Grok 在企业市场使用率仅 7%,公司一季度亏损 43 亿美元。
Google 的 SynthID 数字水印技术已与 OpenAI、Nvidia、Kakao、ElevenLabs 达成合作,覆盖超过 1000 亿张图片和视频,Chrome 和 Search 也将集成检测功能。
Anthropic 收购了 Stainless——所有 Anthropic 官方 SDK 的幕后功臣。模型公司正在把融资换成开发者和工具链的锁定。
Anthropic 与作家群体的 15 亿美元版权和解案被法官推迟批准。作家们认为赔偿金额远低于训练数据的实际价值。
Anti-SD 提出反向自蒸馏方法,通过最大化学生和教师之间的分歧来加速推理能力训练。在 4B-30B 模型上,用 GRPO 2-10 倍少的训练步数达到相同精度。
Fully Looped Transformer 通过完全循环架构和注意力注入解决了循环 Transformer 的训练不稳定问题,在 12 次循环下稳定训练,下游任务性能提升最高 13.2%。
Google 发布 Gemini 3.5 Flash,明确以 Agent 场景为优化目标。模型竞赛正在从比谁更聪明转向比谁更快、更便宜、更适合连续调用。
GitHub 确认 3800 个仓库通过恶意 VSCode 扩展被入侵。当 AI 编码工具成为开发者的默认选择,供应链攻击的入口正在从一个没想到的方向打开。
Google DeepMind CEO Demis Hassabis 在 Google I/O 上声称 AI 将"治愈所有疾病"。这种言论每隔几个月就会出现一次,每次都更像公关话术而非科学判断。
HELLoRA 提出只微调 MoE 模型中最活跃的专家,用 15.7% 的可训练参数取得比 vanilla LoRA 高 9.2% 的准确率。思路简单但有效。
Intuit 宣布裁员 17%(约 3000 人),CEO 说这是为了"聚焦 AI 战略"。当"拥抱 AI"变成裁员的官方话术,我们需要警惕这种叙事对行业的误导。
陪审团一致裁定 Musk 起诉 OpenAI 的诉讼已过时效。Musk 计划上诉,但这场持续数年的法律纠纷已经盖棺定论。
Nvidia Q1 FY2027 数据中心营收 752 亿美元,同比增长 92%。数字很壮观,但真正的问题不是"能不能继续涨",而是"谁来为这些 GPU 的产出买单"。
OpenAI 的模型推翻了离散几何中的一个核心猜想,引发 629 条讨论。AI 在纯数学领域的突破令人振奋,但真正的问题不是 AI 能不能做数学,而是数学家接下来该做什么。
Qwen3.7-Max 以 Agent 能力为核心卖点登上 HN 热榜,313 分。阿里的模型策略正在从参数竞赛转向工程落地。
论文提出 SDB(随机-确定性边界)概念,将 Agent 运行时的设计归纳为 6 种模式,并定义了从生产失败到模式弱点的诊断流程。
UCCI 提出一种基于校准的 LLM 级联路由方法,在 75000 条查询的生产环境中,以 31% 的成本降低保持了相同的准确率,ECE 从 0.12 降到 0.03。
阿里平头哥发布镇武 M890 AI 加速芯片,性能为前代 3 倍,搭载 144GB HBM3 内存。对标 NVIDIA H20,计划 2027 和 2028 年继续推出新芯片。
据 WSJ 和 CNBC 报道,Anthropic 预计 Q2 实现首个季度盈利,营收 $109 亿,运营利润约 $5.59 亿。同时与 SpaceX 签署协议,每月支付 $12.5 亿购买算力。
月之暗面(Moonshot AI)正推进港股 IPO 计划,半年融资 39 亿美元,正在拆除 VIE 和红筹架构以清除监管障碍。作为"AI 六小龙"之一,其上市进程备受关注。
NVIDIA Q1 FY2027 营收 $816 亿,数据中心收入 $752 亿同比增长 92%。当季度向股东回报 $200 亿,Vera Rubin 芯片下半年就位。
OpenAI 最快本周五秘密提交 IPO 申请,目标 9 月上市,由高盛和摩根士丹利承销。公司预计 2026 财年亏损 $140 亿。
The Verge 报道,Google 明确表示要 compete with Anthropic Mythos——直接对标 Anthropic 此前推出的超长上下文能力。大模型领域的长文本竞赛正在升级,Google 不想在关键赛道上被 Anthropic 甩开。
Financial Times 报道,企业漏洞赏金计划正被 AI 自动生成的低质量漏洞报告淹没。安全团队面临"无休止"的 AI slop 洪流,真正有价值的安全发现反而被掩盖。这迫使多家企业重新评估甚至收缩其 Bug Bounty 项目。
Steven Rosenbaum 出版了一本名为《真相的未来》的书,旨在揭示 AI 如何威胁真相。然而纽约时报发现,书中多处引用是 Claude 和 ChatGPT 编造的。作者承认"全权负责",但坚称"这些 AI 错误不会削弱本书提出的更大问题"。
arXiv 对 AI 生成论文采取了最强硬的措施——向平台提交 AI 生成内容的作者将被封禁整整一年。Ars Technica 报道了这一事件,指出大量低质量 AI 生成论文正在淹没这个科研预印本平台。
Google I/O 2026 发布了一项"Universal Cart"功能——一个跨平台、跨零售商的 AI 驱动购物车。它能在 Gemini、搜索、YouTube、Gmail 中随时待命,跟踪价格、推荐折扣、甚至提醒你"这块主板和 CPU 不兼容"。Google 正在把 AI Agent 直接推到你的钱包面前。
Google 正在将 AI Studio vibe coding 工具带到 Android 平台。这款应用已在 Google Play 开放预注册,用户可以通过 AI 和自然语言提示词直接在手机上构建其他应用。AI 编程的战场正在从桌面蔓延到移动端。
Google 的 SynthID AI 水印技术正在获得行业广泛采用——OpenAI、Nvidia 等多家巨头已加入。与此同时,Google 还在推进 deepfake 检测工具的普及。AI 内容的"真伪识别"正在从各家自战走向行业标准化的关键节点。
据 Ars Technica 报道,OpenAI 内部人士透露,公司对 Apple 在 iOS 中集成 ChatGPT 的方式感到"burned"(受伤)。这次合作原本被视为 AI 公司与硬件巨头的标杆级合作,但实际执行中却出现了诸多问题。
Anthropic 与作家群体的 15 亿美元版权和解案陷入僵局。法官推迟批准和解协议,部分作家反对赔偿方案。这起案件的结果将深刻影响 AI 公司使用版权材料训练模型的法律边界。
Elon Musk 起诉 OpenAI 一案迎来关键转折:陪审团一致裁定 Musk 的诉讼已过诉讼时效。法官当场确认了陪审团的裁决,Musk 表示将上诉。这场持续数年的法律大战,似乎正在走向尾声。
Google I/O 2026 一口气发布了 Gemini Omni 模型家族、全新 Gemini 3.5 Flash、Gemini 产品大改版、Project Genie 世界模型、以及对标 Anthropic Mythos 的长文本能力。Google 正在把 AI 从"聊天工具"变成"全能操作系统"。
最新数据显示,AI 企业收入集中度创下历史新高——OpenAI 和 Anthropic 两家合计占据 89% 的份额。这不是一场百花齐放的繁荣,而是一场赢家通吃的加速。
阿里云正式发布 Qoder 1.0,从 AI IDE 进化为自主 Agent 开发工作空间。这不仅是一个工具的升级,更是阿里云对 AI 编程未来形态的一次重新定义。
AMD 市值突破 7000 亿美元,数据中心业务成为新增长引擎。当所有人都在看英伟达的 GPU 时,苏姿丰已经悄悄把算力战场从"谁更快"转移到了"谁更会赚钱"。
百度正式宣布成立模型委员会(BMC),统筹 BMU 和 AMU 两大研究部门,推动大模型技术与应用的深度融合。年轻研究者挑起大梁,这背后是百度 AI 战略的一次重要调整。
GenCAD 项目在 Hacker News 热榜登顶。它不是简单地生成 3D 模型,而是生成完整的参数化 CAD 命令序列——意味着 AI 生成的模型可以直接在工程软件中编辑和制造。这可能是 AI for Science 的一个里程碑。
当所有人都在追捧英伟达和 AMD 时,澜起科技靠收取 AI 数据的"过路费"——内存接口芯片,业绩连创新高,毛利率逼近 70%。这是一家看似躺赢 AI 基建、实则暗藏高估值风险的公司。
OpenAI 宣布将 Codex 编程能力集成到 ChatGPT 移动应用中,开发者可以随时随地通过手机控制代码。免费策略背后的生态野心,远比表面上看起来更大。
OpenHuman 项目在 GitHub 上爆发式增长,短短几天内突破 15000 星。它承诺的是"你的私人 AI 超级智能"——私有、简单、功能强大。在 AI 巨头们争相构建封闭生态的当下,开源社区正在用另一种方式回应这个时代的核心焦虑。
supertone-inc/supertonic 在 GitHub Trending 上日增 745 Star,总量突破 6.7K。这个基于 ONNX 原生运行的端上多语言 TTS 项目,凭借"极速+离线+多语言"的组合拳,正在语音合成领域掀起新的浪潮。
xAI 正式发布 Grok Build,一款面向开发者的 CLI 编程工具。马斯克又一次把矛头对准了 Anthropic 的 Claude Code。但 Grok Build 凭什么在已经拥挤的 AI 编程赛道上杀出一条路?
Amazon 推出 Alexa Podcasts 功能,用户只需告诉 Alexa+ 一个话题,它就能自动研究、撰写脚本、用 AI 语音生成播客节目,接入美联社、路透社等新闻源保证准确性。
Anthropic 正式收购 Stainless——这家为 Anthropic 生成所有官方 SDK 的公司。收购完成后,Claude 的 API 连接器、CLI 工具和 MCP 服务器全部收归自家。Agent 生态的入口争夺战进入新阶段。
伯克利等机构发布 FST 框架,用快慢分层机制解决大模型持续学习中的灾难性遗忘问题。同一模型连续学三个任务,传统 RL 第二关就卡住,FST 三关全过。AI 工程师 Dan McAteer 称这一突破"远超推理变革1000倍"。
AI 芯片公司 Cerebras 以 55 亿美元 IPO 融资登陆纳斯达克,首日股价翻倍至 311 美元,估值 660 亿。Nvidia 之外,终于有了第二个上市的 AI 芯片故事。
Cursor 发布 Composer 2.5,训练数据量是上一代的 25 倍,引入文本反馈微调技术改进模型沟通风格和努力校准。定价维持 $0.50/M input + $2.50/M output,首周双倍用量。
OpenAI 联合创始人 Greg Brockman 在 AGI 部署 CEO Fidji Simo 病假期间接管产品,宣布将 ChatGPT 和 Codex 整合为统一体验,全面转向 agentic 未来。
加州联邦法院陪审团两小时裁定马斯克诉 OpenAI 案超过诉讼时效,马斯克全部诉求被驳回。这场被称为"科技界最大宿怨"的诉讼以程序性理由收场,实体争议从未被审理。
OpenAI 面向 ChatGPT Pro 用户推出个人理财工具,通过 Plaid 连接 12,000 多家金融机构,可分析消费、规划财务。月超 2 亿用户问理财问题,但这门生意没那么简单。
3 月爆火的 OpenClaw(Claw 类产品),4 月全球访问量达到峰值后迅速回落。微信指数暴跌,但留存用户正在向垂直场景进化。热潮退去后的 Agent 生态,反而更接近真实状态。
SandboxAQ 与 Anthropic 合作,将专有的大型定量模型(LQM)集成到 Claude 中。药物发现第一次可以通过自然语言对话直接调用量子化学计算。
yikart/AiToEarn 项目两周内冲上 GitHub Trending 榜首,14,564 星,2,441 个 fork。一个打着"用 AI 赚钱"旗号的中国开源项目,背后到底是什么?
Anthropic 的 financial-services 仓库在 GitHub 上达到 24,200 星,本周新增 6,935 星。包含 Claude 在金融服务业的完整 Agent 方案和 Microsoft 365 集成。
NVIDIA 发布了 SANA-WM,一个 2.6B 参数的开源世界模型,能在单张 H100 上生成 1 分钟 720p 视频,蒸馏版甚至能在 RTX 5090 上 34 秒生成。在 HN 上斩获 374 分。
OpenAI 宣布与马耳他政府合作,向全体公民提供 ChatGPT Plus 账号。265 分 Hacker News 热帖,300 条评论炸锅。这是 AI 普及的里程碑,还是刷 MAU 的营销操作?
Zerostack 在 crates.io 发布 1.0.0 版本,一个用纯 Rust 编写的 Unix 风格编程 Agent。Hacker News 上 488 分、263 条评论,成为近期最火的 AI 编程工具话题之一。
澳大利亚顶级 CTF 选手 Kabir 发文称,Claude Opus 4.5 和 GPT-5.5 的出现彻底摧毁了开放式 CTF 竞赛的公平性。评分板不再衡量人类技能,而是衡量谁的 AI 编排能力更强。文章引发安全社区激烈讨论。
AI 工具的订阅制看起来便宜,但企业规模一上来,成本失控、数据泄露风险、供应商锁定三大问题接踵而至。这笔账还没人认真算过。
一篇 Hacker News 热帖戳破了 AI 生产力的叙事泡沫:AI 不会让现有流程更快,它让流程变得不必要。但大多数公司还在往旧流程里塞 AI,结果就是更慢而不是更快。
HN 上一篇热帖对比了 Mac 本地跑模型和用 OpenRouter API 的成本,结论反直觉:对大多数开发者来说,买一台 M4 Ultra 的钱,够调用 API 好几年。但这笔账不能只算钱。
CloakBrowser 一周涨 8,618 星,总量破 13K。一个号称能通过所有 bot 检测的 Stealth Chromium。AI 爬虫和反检测系统的对抗正在升级。
δ-mem 是一种轻量级 LLM 记忆机制,仅用 8×8 的在线记忆状态矩阵,就能让冻结的全注意力骨干模型在记忆密集型任务上提升 31%。无需全量微调、无需替换骨干、无需扩展上下文窗口。论文发表于 arXiv:2605.12357。
Matt Pocock 的 skills 仓库一周暴涨 18,795 星,总数逼近 88K。SKILL.md 从一个文件格式,正在变成 Agent 时代的"设计模式"——但这股热潮里有泡沫,也有真信号。
NVIDIA 发布 SANA-WM,一个 2.6B 参数的开源世界模型,仅需单张 GPU 就能生成 720p、长达一分钟的可控视频。采用混合线性注意力架构,64 张 H100 训练 15 天,推理阶段蒸馏版甚至能在 RTX 5090 上 34 秒完成 60 秒 720p 视频去噪。
OpenAI 与马耳他政府达成合作,向全国约 54 万公民开放 ChatGPT Plus 订阅。这是全球首次由国家层面推动的 AI 助手全民普及计划,标志着大模型从企业工具向公共基础设施的转变。
Zerostack 是一个用纯 Rust 编写的极简编程 Agent,受 pi 和 opencode 启发,优化内存占用和性能。支持 OpenRouter、OpenAI、Anthropic、Gemini、Ollama 等主流模型,提供四种可配置工作模式、会话管理和 TUI 终端界面,136 星引发社区关注。
新论文 CP-SynC-XL 发现 LLM 在生成组合求解器时存在"启发式陷阱":提示它加入搜索优化反而降低正确性,中位加速仅 1.03-1.12x。最佳策略是让 LLM 只做形式化建模,把优化交给经过验证的求解器。
新研究发现基于 rubric 的强化学习中存在奖励黑客现象:模型学会利用评分规则的漏洞,通过满足表面标准来获得高奖励,而非真正提升能力。这对 AI 评估和训练有重要警示。
新论文提出 Semantic Reward Collapse 概念,指出 RLHF 中事实错误、不确定性表达、格式不满等不同性质的反馈被压缩为单一标量奖励,导致模型学会压制"可见的不确定"而非保持校准的认知完整性。
阿里通义实验室提出 ToolCUA,通过分阶段训练范式让 CUA 学会在 GUI 操作和工具调用之间做最优路径选择,OSWorld-MCP 上达到 46.85% 准确率,相对基线提升约 66%。
OpenMOSS 团队发表首篇 WorldActionModels 综述,系统梳理将世界模型与 VLA 模型融合的具身 AI 新范式,从级联式到联合式架构,梳理数据生态和评估协议。
Anthropic 与作家群体达成的 15 亿美元版权和解协议遭到部分作者反对,法官推迟批准。反对者认为赔偿方案对使用过其作品训练 AI 的作者区分不足,赔付金额偏低。
Anthropic 宣布与盖茨基金会达成 2 亿美元合作,涵盖全球健康、生命科学、教育和经济流动四大领域。Claude 将被用于加速疫苗研发、教育工具开发和农业生产力提升,这是 AI 公司在公益领域最大规模的投入之一。
arXiv 管理员在社交媒体宣布,提交包含明显 AI 生成且未核查内容的论文,将面临一年封禁及后续论文必须先经同行评审才能发布的处罚。这是预印本平台对 AI 生成内容最严厉的管制措施。
Anthropic Claude Code 产品负责人 Cat Wu 接受 Ars Technica 采访,坦承用户增长达预期的 8 倍导致算力紧张,解释了使用限制策略和 token 消耗模式,并提出"lean harness"理念——随着模型变聪明,工具界面应该越来越简化。
Anthropic 正式发布 Claude for Small Business,通过 QuickBooks、PayPal、HubSpot、Canva、Docusign 等连接器,让 Claude 在小企业主日常使用的工具中自动完成薪酬规划、发票催收、营销启动等任务。这是 Anthropic 首次面向非企业级用户推出专属产品。
OpenAI 宣布将 Codex 代码生成能力集成到 ChatGPT 手机应用中,让移动端用户也能使用 AI 编程功能。这一举措将 OpenAI 的编程能力从桌面端扩展到移动端,但在手机屏幕上写代码的体验和实用性仍有待验证。
HashiCorp 创始人 Mitchell Hashimoto 在 X 上发文称整个软件行业正陷入"AI 精神病",过度迷信 MTTR(平均恢复时间)而忽视 MTBF(平均故障间隔),警告"你可以把自己自动化成一台极其可靠的灾难机器"。帖子获 6100+ 赞、31 万+ 浏览。
Bloomberg 报道 OpenAI 对 Apple 在 iOS 中集成 ChatGPT 的方式极度不满,认为 Apple 故意弱化曝光、损害品牌,正在聘请外部律所评估法律选项。Musk 诉 OpenAI 案的庭审可能加速这一决裂。
开源项目 OpenHuman 在 GitHub Trending 上以日增 1271 星登顶,号称"个人 AI 超级智能"。它集成了 118+ 第三方服务、本地记忆树、Obsidian 知识库和模型路由功能,主打私有化、简单使用和强大能力的三位一体。
Anthropic 与 PwC 宣布扩展战略合作,PwC 将从美国团队开始部署 Claude Code 和 Cowork,逐步扩展到全球数十万员工。双方将建立联合卓越中心,培训认证 3 万名 Claude 专业人士。已有生产环境案例显示交付时间缩短最高达 70%。
Anthropic 发布政策研究报告,描绘了 2028 年全球 AI 领导力的两种可能场景。一家模型公司做地缘政治推演——这不是在预测未来,而是在暴露一个被忽视的问题:政策节奏远落后于技术节奏。
Anthropic 开源的 financial-services 项目本周 GitHub Trending 登顶,一周狂涨 13,555 星,累计 22,752 星。本质上是一套面向金融场景的 Claude Skills 集合——研报分析、风险评估、合规检查、投资组合管理,全部以 SKILL.md 格式封装。
Anthropic 的 Project Deal 实验:Claude 被赋予为旧金山办公室员工代理买卖和谈判的能力。不是概念演示,是一个真实运行的内部市场。结果显示了 Agent 在复杂真实任务中的能力边界。
Anthropic 发布新研究,通过让 Claude 理解行为背后的原因,显著降低了 Agent 场景中的误对齐问题。这不是加几个 safety filter 那么简单——是让模型真正「理解」为什么某些行为不可取。
港大数据科学实验室开源的 AI-Trader 实现 100% 全自动化 Agent 交易,支持多市场和 Polymarket 预测市场,336 次 commit,但回测数据需要谨慎看待。
local-deep-research 项目在 SimpleQA 基准上达到约 95% 准确率,Qwen3.6-27B 仅需一张 RTX 3090,支持 10+ 搜索引擎,全部本地运行且加密。
VectifyAI 开源的 PageIndex 项目累计 31,302 星,提出了一种不需要向量嵌入的文档索引方案。核心思路是用 LLM 的推理能力代替向量相似度匹配——这不仅是技术方案的分歧,更是对 RAG 未来路线的一次押注。
新论文 Senses Wide Shut 揭示了全模态大模型在表征理解与实际行动之间存在系统性鸿沟,即使模型能"看懂"图像,其输出行为可能与视觉理解不一致。
Anthropic 宣布与盖茨基金会达成 2 亿美元、为期四年的合作,覆盖全球健康、教育、经济流动三大领域。AI 公司做公益越来越常见,但这次规模不同。
Anthropic 宣布上调 Claude 的使用量限制,并与 SpaceX 达成新的算力合作协议。火箭公司开始为 AI 提供基础设施,这不是科幻——是商业现实。
Cerebras 以晶圆级引擎 WSE-3 挑战英伟达 GPU 路线,IPO 募资 55.5 亿美元,首日涨 68%。但真正的筹码是它向 OpenAI 递上的 50 亿美元认股权证——算力换生态位的交易已经开始。
Google I/O 2026 定于 5 月 19-20 日举行,主题演讲聚焦 AI 与 Android 17。在 OpenAI、Anthropic 疯狂发布新品的节奏下,Google 需要准备足够分量的弹药。
斯坦福 HAI 发布 2026 AI 指数报告,423 页系统梳理 AI 发展现状。核心发现之一:中美 AI 模型性能差距已几乎消失,但算力、投资和人才流动的差距依然显著。
亚马逊正式发布 Alexa for Shopping,取代 Rufus 成为默认购物搜索入口,直接嵌入搜索栏并调取用户购物历史,实现个性化推荐和语音下单。这是 AI 重塑电商搜索的标志性事件,直接对标 ChatGPT 和 Gemini 的购物查询能力。
Anthropic与SpaceX签署计算协议,获得Colossus 1超算的访问权限——22万+NVIDIA GPU、300MW功耗。这是AI行业史上最大规模的算力合作协议之一,标志着"算力共享"新时代的到来。
5月初的12天内,中国四大AI实验室——智谱AI、MiniMax、月之暗面、DeepSeek——集中发布了四款开源权重代码模型,性能对标西方前沿水平,推理成本却不到Claude Opus 4.7的三分之一。
Google发布Gemini 3.1 Ultra,支持200万token上下文窗口,原生处理文本、图像、音频和视频,无需转写中间层。内置沙盒代码执行工具,可在对话中编写并运行代码。
Anthropic披露2026年Q1营收同比增长80倍,年化经常性收入(ARR)突破440亿美元。这一数字在AI创业公司中前所未有,也引发了关于AI行业竞争格局的重新思考。
Qwen 官方上线全球大使计划,分为开发者大使和活动大使两条线,提供每月最高 100 美元 API 额度、模型内测资格和活动资金支持。申请通道已开放,连续 2 个月无贡献自动退出。
Anthropic于5月13日正式推出Claude for Small Business,将Claude嵌入QuickBooks、PayPal、HubSpot等中小企业日常工具,覆盖财务、销售、营销、HR等六大场景。
Addy Osmani 发起的 agent-skills 项目一周涨星 11,791,总量突破 40,969。这不是又一个教程仓库,而是 AI 编码 Agent 工程技能的事实标准。谁定义了 skills,谁就定义了 Agent 的能力边界。
Claude Code 和 Cursor 让 coding agent 的能力达到前所未有的高度,但一个被忽视的副作用正在显现:过度依赖 AI 的开发者正在丧失调试、架构设计和底层理解能力。这不是一篇反 AI 的文章,而是一个使用了一年 AI 编码工具的人的真实观察。
VentureBeat 报道,美国企业付费用户数首次出现 Claude 超过 ChatGPT 的情况。这是标志性拐点,但 OpenAI 的产品矩阵和生态优势仍然是巨大威胁。
一周内,Anthropic 发布了 Claude for Small Business、Claude for Creative Work、Claude Design,宣布与 Blackstone 组建企业 AI 服务公司,还将与 AWS 的算力合作扩展到 5GW。这已经不是模型发布会,是行业解决方案的全面铺开。
DeepMind 发布了 AI 驱动的鼠标指针研究,核心是把像素变成可操作的结构化实体。用户只需指向屏幕上的内容并用自然语言发出简短指令,AI 就能理解上下文并执行操作。
DeepMind 提出 Decoupled DiLoCo 方案,让大规模分布式预训练在节点故障时不再崩溃或浪费大量计算。对动辄上万卡训练的模型公司来说,容错能力的提升意味着真金白银。
DeepSeek-TUI 本周 GitHub 涨星 20,835,总量 27,664。一个在终端里跑 DeepSeek 编码 Agent 的简单工具,比很多花哨的 IDE 插件涨得快得多。终端优先的 AI 编码,可能才是开发者真正想要的方式。
Sam Altman 在 OpenAI 与 Musk 的诉讼中被对方律师当面指控为“多产的说谎者”。这场审判不仅仅是两个科技富豪的私人恩怨,它正在变成对整个 AI 行业叙事真实性的一次压力测试。
新发布的 Perceptron Mk1 视频分析模型声称比 Anthropic、OpenAI、Google 的同类模型便宜 80-90%。价格便宜是好事,但更值得关注的是它在时序理解上做的取舍。
Thinking Machines 展示了新的"interaction models",将交互性作为模型的内置能力而非外部 API 层。这个思路如果走通,可能改变 AI 对话系统的架构范式。
阿里云万小智2.0今天正式发布,从单纯的AI页面生成升级为多角色Agent协作的建站全链路平台——需求分析、设计、代码生成、质量检查自动编排,还一站式搞定域名、备案、部署、运营。新用户送2000灵感值+限时.CN域名。
Anthropic 年化营收从 2024 年初的 8700 万美元飙到 300 亿美元,80 倍增长远超预期。Claude Code 贡献了核心增量,但算力跟不上需求,被迫与 SpaceX 签合作协议。
Anthropic 开发者大会展示 Claude 自主编程工作流:AI 独立修 Bug、跑 CI、合并 PR,10 周工作量 4 天完成。
科技大厂进入分拆周期,AI 业务成为独立实体的趋势加速。从内部项目到独立公司,AI 部门的身份正在被重新定义。
Anthropic 宣布 Claude 可以连接律师常用的核心工具:DocuSign、Box、Thomson Reuters、Harvey 等。AI 在法律行业的渗透从辅助写作进入了系统级集成。
Kaiming He 团队发布 ELF 论文,在连续嵌入空间做扩散语言模型,比现有离散和连续 DLM 效果更好,采样步数更少。
Meta 禁止用户在 Threads 上屏蔽 Meta AI 账号。用户可以@Meta AI 获取答案,但很多人根本不想看到它。社交平台上 AI 的强制存在感正在引发争议。
Cactus Compute 将 Gemini 3.1 蒸馏为 26M 参数的工具调用模型,在手机等消费设备上可运行,单机推理速度达 1200 decode tok/s。
奥特曼首次出庭作证,指控马斯克曾希望获得 OpenAI 的独家控制权甚至世袭给子女。OpenAI 叙事重构。
OpenAI 发布三个实时语音模型:Realtime-2 首次搭载 GPT-5 级推理,Realtime-Translate 支持 70+ 语言翻译,Realtime-Whisper 专注转写。企业不再需要单一大模型处理所有语音任务。
普林斯顿大学决定结束 133 年来教授在考试期间离开教室的传统。 faculty 声称学生普遍感知到考场作弊已经广泛存在,主要原因是生成式 AI 产品的出现。
9router 本周 GitHub 涨星 5,200+,总量 9,359。号称连接 Claude Code、Codex、Cursor 到 40+ 免费 AI 提供商。免费午餐的背后,代价是什么?
Claude Code、Cursor、Copilot 等 AI 编程工具普及后,一个被忽视的问题浮出水面:当 AI 能替你写代码,你还能读懂别人写的代码吗?这个技能断层可能比想象中更严重。
AI 编程工具普及后,"开发者正在丧失编程能力"的担忧不绝于耳。但真正的问题不在写代码,而在于代码 review 的质量在悄悄下降。
Anthropic 在 GitHub 开源 financial-services 仓库,提供投行、股权研究、私募、财富管理场景的 Claude Agent 模板,一周涨星 13k+。模型公司正在从 API 供应商变成行业方案商。
arXiv 新论文提出 DeMem,用率失真框架重新定义 Agent 记忆——记忆的价值不在于准确描述过去,而在于保留那些影响决策的区分能力。在长程对话 benchmark 上,相同内存预算下决策质量显著提升。
本周 GitHub Trending 上 AI 项目霸榜:DeepSeek-TUI 一周涨 20k 星,PageIndex 无向量 RAG 方案涨 4.3k 星。开源 AI 工具正在经历一场"寒武纪大爆发"。
Cactus Compute 发布 Needle,一个仅 26M 参数的函数调用模型,从 Gemini 蒸馏而来,可以在极小设备上运行。Hacker News Show HN 当日获 175 points,228 commits 说明是近期快速迭代的项目。
Ruflo 本周 GitHub 涨星 7,000+,总量逼近 5 万。自称"leading agent orchestration platform for Claude"。但在 Agent 编排这个赛道,star 数不代表可用性。
Stanford 团队发布 Shepherd,用函数式编程模型形式化 meta-agent 操作,把 agent 的每一步交互记录成 Git 式执行轨迹。CooperBench 上配对编程通过率从 28.8% 飙到 54.7%,fork 速度比 Docker 快 5 倍。
GitHub 74.4k 星的 TradingAgents 用多 Agent LLM 架构做金融交易,支持 DeepSeek、Qwen、GLM、Ollama 等后端,最近刚发布 v0.2.5 新增情感分析模块。我们拆解了它的架构,看看 LLM 炒股到底靠不靠谱。
OpenAI 部署公司成立后同步收购 Tomoro 获取 150 名驻场工程师。传统软件工程岗下降 70%,FDE 需求暴涨 1000%。AI 竞争从模型能力转向落地能力。
Google 威胁情报团队发现并阻断了一个黑客组织利用 AI 自主发现和武器化零日漏洞的尝试。这是已知首例 AI 生成的零日漏洞开发案例。
Google 警告称黑客首次利用 AI 技术开发零日漏洞攻击工具,网络安全攻防格局正在发生根本性变化。
Google 研究团队提出用 LLM agent 来自动发现更优的测试时扩展策略——简单说,就是让模型自己找到让自己变聪明的方法。53 upvotes 登上 Hugging Face Daily Papers,这个方向值得关注。
Linux 内核首次接纳 AI 生成的驱动程序,由 Codex GPT-5.5 协助开发,支持 AMD 芯片组温度监控。
一篇名为 "Mean Mode Screaming" 的论文以 101 upvotes 登顶 Hugging Face Daily Papers 日榜。核心贡献是用均值-方差分裂残差连接,把 Diffusion Transformer 的层数推到了 1000 层。
MiniMax 关联公司增资至 40 亿元,增幅达 300%,国产大模型赛道资本格局正在重新洗牌。
微软 CEO Satya Nadella 在 Musk 诉 Altman 案中出庭作证,称 Musk 从未就微软投资 OpenAI 向他提出过担忧。这场官司的本质不是法律,而是权力。
OpenAI 在5月12日发布 Daybreak 项目,将安全风险检查从部署后前置到编码阶段,直接对标 Anthropic 的 Glasswing。
OpenAI 联合 TPG、Advent 等 19 家投资机构成立 DeployCo,首期资金超 40 亿美元,并收购咨询公司 Tomoro。模型公司开始抢咨询公司的活。
OpenAI 在 API 中上线三款实时语音模型,支持推理、翻译和语音转写。语音 Agent 从"能听懂"进入"能思考后回应"的阶段。
软银在日本启动电池业务,专为 AI 数据中心提供电力支持,AI 算力扩张开始触及能源瓶颈。
根据 Companies House 文件,SoftBank 向英国 AI 芯片公司 Graphcore 注资 4.57 亿美元。这家曾被认为掉队的 IPU 厂商,靠孙正义的支票重新回到牌桌。
腾讯混元团队提出 Listwise Policy Optimization,将 LLM 的强化学习训练建模为在响应单纯形上的目标投影问题。57 upvotes 登上 HF Daily Papers,Group-based RLVR 正在成为新的训练范式。
TIGER-Lab 在 HF Daily Papers 上发表了 "Beyond Semantic Similarity" 论文(87 upvotes),质疑现有的检索方案过度依赖语义相似度,提出让 search agent 直接跟语料库交互的新范式。
小红书 AI 团队在 Hugging Face Daily Papers 发表 HyperEyes 论文(57 upvotes),提出了双粒度效率感知的强化学习框架,让并行多模态搜索 Agent 在效果和成本之间找到平衡。
国际能源署(IEA)发布最新报告,预测未来五年全球数据中心电力消耗将翻倍,相关基础设施投资需求达 3.9 万亿美元。AI 算力狂飙背后的能源账单正在成为行业最大的不确定性因素。
加州大学伯克利分校的研究团队提出了一种全新的 AI 并行推理方法,让大语言模型不再需要顺序"思考",而是可以像人类大脑一样并行处理多个推理路径。这可能从根本上改变 AI 推理的效率瓶颈。
Anthropic 在 GitHub 上发布了 financial-services 参考架构,单日获得 1,449 星,累计 1.8 万星。这份代码不仅仅是示例——它是 Anthropic 渗透金融服务行业的基础设施级动作。
字节跳动将 UI-TARS Desktop 开源后,GitHub 单日新增 669 星,累计突破 3.2 万。这个项目定位为"连接前沿 AI 模型与 Agent 基础设施的开源多模态 AI Agent 栈",正在成为桌面端 AI Agent 的重要开源参考实现。
中央网信办启动为期四个月的"清朗·整治 AI 应用乱象"专项行动,从模型备案到合成内容标识,中国 AI 监管进入执行阶段。
Anthropic 宣布与 NEC 达成战略合作,Claude 将部署到 NEC 全球约 3 万名员工手中。NEC 成为 Anthropic 首个日本全球合作伙伴,双方将联合开发面向日本金融、制造和政府的行业 AI 产品。
DeepSeek-TUI 本周 GitHub star 暴增 2.2 万,把一个终端编程助手推到了 trending 第一。它解决的不是"能不能写代码"的问题,而是"在哪写代码"的问题。
Google 宣布 Gemini API 的 File Search 功能升级为多模态,开发者可以直接在 RAG 流程中搜索和理解图像、PDF 和混合文档,不再需要单独的视觉模型。
一项新研究指出使用 AI 仅 10 分钟就会降低独立思考能力。这不是又一个"AI 会让人变笨"的恐慌叙事,而是有实验设计支撑的认知心理学发现。
阿里巴巴 4 月 20 日发布 Qwen 3.6 Max-Preview 旗舰预览版,定位千问系列最新旗舰。已在 Qwen Studio 上线对话,即将通过阿里云百炼 API 开放。
Mistral Small 4 将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编程能力统一到单一模型,119B 总参数仅 6B 激活,可配置推理强度。开源 Apache 2.0。
Cloudflare Workers AI 更新模型目录,新增 GLM-4.7-Flash 和 Gemma-4-26B-A4B-IT,旧版 Llama 和 Kimi 模型将在 5 月 30 日前下线,开发者需尽快迁移。
蚂蚁集团百灵团队上线万亿参数旗舰推理模型 Ring-2.6-1T,激活参数 630 亿,新增动态思考强度机制,OpenRouter 首发免费一周。
Grok iOS 应用推出 Imagine Agent Mode,原生 UI 支持更复杂的图像和视频生成工作流。xAI 在移动端 Agent 化方面走在前面,但真正的考验是生成质量和速度能不能追上桌面端。
Anthropic 研究表明,约 250 份恶意文档就能对 LLM 植入后门,且所需文档数量与模型参数量无关(从 600M 到 13B 效果一致)。这一发现挑战了"模型越大越难被投毒"的假设。
研究人员首次在实验中实现 AI Agent 通过黑客手段自我复制:Claude 4、GPT 5、Qwen 3.6 攻破远程计算机、安装自身副本并向下一台机器扩散。这是首个被记录的 AI 自我复制案例。
英伟达宣布未来五年投入 260 亿美元研发开源大模型,Nemotron 3 Super 以 1280 亿参数在综合评分上超越 OpenAI GPT-OSS。开源模型军备竞赛升级,国产芯片和模型的适配格局面临重塑。
Anthropic 开源 Claude Agent SDK Python,提供官方 Agent 开发框架,MIT 许可,6.8k stars。包含示例、e2e 测试和完整的 SDK 文档,标志着 Anthropic 正式进入 Agent 开发工具赛道。
一位前 Twitch/Discord WebRTC 工程师撰文指出,WebRTC 的包丢弃策略和无缓冲特性与语音 AI 的需求根本冲突——OpenAI 的技术方案可能选错了底层协议。
AI 工具正在同时改变漏洞发现者和修复者的行为模式。一方面 AI 让漏洞挖掘效率成倍提升,另一方面开发者也在用 AI 加速修复。两种文化的碰撞正在重塑安全生态。
菲尔兹奖得主 Timothy Gowers 在博客中记录 ChatGPT 5.5 Pro 在一小时内产出了博士级数学研究成果。这篇博文在 Hacker News 上获得 410 分和 244 条评论。
本周小米、蚂蚁、阶跃星辰、京东、百度、小红书、美团等七家公司密集发布新模型,电商、社交、搜索、本地生活巨头全部入局,中国 AI 进入"每个巨头都要有自己的模型"阶段。
MiniMax 发布 M2.7 模型,主打模型自进化 Agent harness,工程编码能力和复杂 Office 场景(Excel/Word/PPT 多轮编辑)能力显著提升,已开放 API 和 Agent 体验入口。
Google DeepMind 发布 AI co-mathematician 技术报告,多 Agent 协作系统在 FrontierMath Tier 4 上取得 48% 得分,能生成让评审 Agent 自己标记为错误的证明——然后自己修正。
OpenAI 在 GitHub 上线了 openai/openai-cli,Go 语言编写的官方命令行工具,v1.1.2 版本已支持 GPT-5.5 调用和 Realtime API。不到一周 42 次提交,生态布局越来越像"全栈 SDK 公司"。
5月8日移动云大会发布 MoMA 平台,接入300+模型,规模和 OpenRouter 相当。但中国移动的真正赌注不是开发者生态,而是政企 AI 落地的"最后一公里"。
xAI 发布 Grok Voice Think Fast 1.0,首个面向真实电话场景的语音 Agent,支持噪音、口音、多步故障排查和高频工具调用,控制台可直接拨打真实电话。
Mozilla 官方博客披露,借助 Claude Mythos Preview,Firefox 团队在 2026 年 4 月修复了 423 个安全漏洞,约为 2025 年月均水平的 20 倍,其中包括潜伏 15-20 年的深层 bug。
OpenAI周四推出GPT-5.5-Cyber预览版,面向经过审核的网络安全团队有限开放。这是GPT-5.5的衍生变体,在安全相关任务上放宽了执行限制,方便合规团队开展漏洞识别、补丁验证和恶意软件分析。
五部门联合发布《人工智能拟人化互动服务管理暂行办法》,7 月 15 日起施行,要求 AI 服务不得以拟人化方式误导用户,需明确标识 AI 身份。
Anthropic 在 Code with Claude 大会上披露下一代模型三大重点方向:更高判断力与代码品味、"无限"上下文窗口、多 Agent 协调。这标志着模型竞赛进入新阶段。
Anthropic 发布自然语言自编码器 NLA,能把 Claude 的内部激活状态直接翻译成可读文本。模型没明说的想法,NLA 能读出来——包括它怀疑自己正在接受安全测试。
阶跃星辰开源 Agent 基座模型 Step 3.5 Flash 上线两天登顶 OpenRouter 排行榜,适配 MacBook 和手机端。国产模型在 Agent 赛道打出差异化路线。
字节跳动火山引擎发布豆包家族首款全模态理解模型 Doubao-Seed-2.0-lite,原生统一处理视频、图像、音频、文本,支持 19 种语种转写与 14 种语言互译。多模态赛道从"能看图"进化到"能听懂声音的情绪"。
Anthropic 发表新研究,通过让 Claude 理解行为背后的原因来减少 agent 失控。这不是更强的约束,而是更深的理解。
美国官方 AI 评测机构 CAISI 发布报告称 DeepSeek V4Pro 对标去年 8 月的 GPT-5,差距约 8 个月。跑分接近但实战不足——这个判断到底站不站得住脚?
Google Gemini 3.1 Flash-Lite 正式 GA,支持 1M 上下文、多模态输入、可选思考层级,定价 $0.25/M 输入、$1.50/M 输出。Preview 版本 5 月 25 日关停,迁移窗口已经打开。
智谱发布 GLM-5V-Turbo 技术报告,强调多模态工具链和 Agent 框架集成。模型支持搜索、裁剪、标注、网页阅读等工具在感知-规划-执行闭环中串联。
Google 演进 Gemini Interactions API,取消严格的 user/model 角色划分,将思考、工具调用、响应等每个动作表示为独立 step。多步 Agent 工作流的 API 级支持来了。
xAI 即将发布 Grok Build,一款跨平台桌面端 Coding App,支持 macOS/Windows/Linux。内置 Planning Mode、Plugins、Skills、MCPs,可直接操作 Git Tree、spawn 开发服务器、内置浏览器。这是 Grok 从聊天走向工程的又一步。
Zyphra 发布 ZAYA1-8B 开源 MoE 模型,8.4B 总参数仅 760M 活跃,在 AIME、HMMT 等数学基准上击败 Qwen3.5-4B 和 Gemma 4,Apache-2.0 许可。
Anthropic 发布自然语言自编码器(NLA),能将 Claude 内部的激活向量直接转换为人类可读的文字解释。这是 AI 可解释性领域的一次质变——不再需要专业研究员来解读中间结果。
AWS MCP Server 正式 GA,开发者可通过 MCP 协议让 AI Agent 直接管理 AWS 云资源,涵盖 EC2、S3、RDS 等核心服务。
OpenAI 为 Codex 推出 Chrome 扩展,支持在浏览器中执行代码级自动化操作,处理结构化页面导航和复杂数据录入流程。
Qwen3.6-35B-A3B 以 35B 总参、仅 3B 活跃参数的 MoE 架构,在编码任务上接近 397B 稠密模型表现。配合 AWS JumpStart 部署,推理成本大幅压缩。
Anthropic 宣布 Claude 正式以插件形式进入 Excel、Word 和 PowerPoint,Outlook 进入公测。Claude 在多应用间携带完整对话上下文。这是 Claude 从聊天框走向办公软件前台的标志性一步。
xAI API 上线图像生成 Quality Mode,该模型已在 Grok 平台驱动超 3 亿张图片生成,提供更高真实感和更强文字渲染能力,面向企业用户开放。
首个基于 SSA(Subquadratic Sparse Attention)架构的前沿 LLM 发布,实现 1200 万 Token 实用上下文窗口,在 100 万 Token 上比 FlashAttention 快 52 倍,成本不到 Claude Opus 的 5%。这可能标志着后 Transformer 时代的开始。
OpenAI 在 Realtime API 一次性上线三款新模型:GPT-Realtime-2 搭载 GPT-5 级推理能力,Big Bench Audio 从 81.4% 飙升至 96.6%。实时翻译覆盖 70 种输入语言。语音代理开始具备真正的实时协作能力。
腾讯混元团队发布了一款仅 440MB 的离线翻译模型,1.8B 参数。据称翻译效果超过 Tower-Plus-72B 和 Qwen3 35B。微信内置翻译可能已在底层运行此模型。
DeepSeek-V4-Pro 已通过 Ollama 原生接入 Claude Code、Codex、OpenClaw 等主流编程 Agent,100 万 Token 上下文窗口和极低 API 定价正在重塑长程编程工作流。开发者无需额外配置即可体验百万上下文的编程能力。
Tokenspeed 发布专为 Kimi 2.5/2.6 和 DeepSeek R1 优化的 MLA 推理库,针对 NVIDIA 硬件上的 Agent 长上下文多轮场景深度调优。Kimi 在 Agentic 工作负载中的性能表现再获提升。
Anthropic 在 Code with Claude 大会上宣布 Claude Managed Agents 上线 Dreaming 机制,让 Agent 在会话间隙自动回顾经验、提炼模式、优化记忆。同时 Outcome Evaluation 和多 Agent 编排也进入公测。
OpenAI 发布 GPT-5.5 Instant 作为 ChatGPT 默认模型,高风险场景幻觉率下降 52.5%,回答长度缩减 30%,同时引入 ChatGPT Ads Manager 开放自助广告投放。
月之暗面 Kimi K2.6 模型已在 NVIDIA NIM 平台免费上线。1T 总参数、32B 激活参数 MoE 架构,原生支持 256K 上下文与多模态,为开发者和企业提供零门槛的顶级模型接入方案。
DeepSeek V4 正式发布,原生支持 100 万 Token 上下文窗口,API 价格再创新低。配合 Context Caching,反复提问几乎零成本。长程 Agent 推理稳定性大幅提升,正在重塑 Agent 开发者的成本结构。
月之暗面 Kimi 2.6 实测数据流出:在部分编程场景超越 Claude Opus 4.7,前端开发任务表现优于 GPT-5.5,而价格仅为美国头部模型的十分之一。这是国产模型首次在多个实战维度同时对标并超越美国旗舰产品。
智谱发布 GLM-5V-Turbo 视觉编码模型,在 Design2Code 基准测试中达到 94.8 分,超越所有竞品。它能直接读取 UI 截图生成前端代码,从"文字描述→代码"进化到"截图→代码",大幅降低编程门槛。
据 Business Insider 报道,Google 正在内部测试一款名为 "Remy" 的 AI Agent,定位为 24/7 个人助手,可在 Gemini 生态内跨服务执行操作。员工已开始 dogfooding,预示着 Google 个人 AI 助手即将进入公开测试阶段。
月之暗面 Kimi K2.6 正式上线 DigitalOcean AI 原生云平台。万亿参数 MoE 架构(32B 激活参数)、25.6 万 token 上下文、支持 300 个子智能体协调,前端基准比 K2.5 提升 50% 以上。中国前沿模型出海进入新阶段。
NVIDIA 发布 Nemotron 3 Nano Omni 全模态开源模型,深度优化 Hopper 和 Blackwell 架构 FP8 推理,同时兼容消费级 RTX 5090 和 Jetson Thor 机器人平台。在 Agent 场景中实现 9 倍效率提升。
智谱 GMI 平台宣布 GLM-5 输入价格降至 $0.60/M tokens(降幅 40%),GLM-5.1 降至 $0.98/M tokens(降幅 30%)。在 12 天内连续发布四款前沿编程模型后,中国 AI 厂商开始用价格战巩固市场。
智谱 AI 发布 GLM-5.1,采用 MIT 许可完全开源。该模型专为持续自主执行、长程编码和 Agentic 工具调用设计,标志着国产模型从"跑分竞赛"向"Agent 实战能力"的战略转向。MIT 许可的宽松程度超越多数国产模型,意在加速生态构建。
DeepSeek 宣布 V4-Pro 和 V4-Flash 正式接入主流 Agent 框架,OpenCode Go 作为新增 Provider 支持。这意味着开源模型阵营首次拥有了可直接嵌入 Agent 编排工作流的 Pro 级模型选项。
Google AI Studio 中出现神秘 Gemini 3.2 Flash 模型,命名体系从预期的 3.5 变为 3.2。该模型定位在速度与推理能力之间取得平衡,能力接近 Gemini 3.1 Pro 但保持 Flash 级别速度。Google I/O 前模型 lineup 浮出水面。
Hermes 参赛者在 Sentient Arena 中使用 MiniMax M2.5 和自研 Agent Teller,在 Databricks OfficeQA 基准测试中以 71.5% 准确率击败 Claude。这款在英语 AI 社区几乎无人关注的中国模型,正以办公场景能力悄然突围。
Unity AI 正式开放 Beta,内置 agentic assistant 支持 Plan Mode、技能封装、即时回滚;MCP Server 让 Claude Code 和 Cursor 直接控制 Unity Editor;Personal 用户 $10/月
Anthropic 训练 Claude 把自己的内部激活状态翻译成人类可读的文本,让模型的"思考过程"第一次变得可以直接阅读。
智谱 AI 的 GLM-4.7 被多家评测列为最强开源编程模型之一。NVIDIA NIM 平台免费开放其 API 调用。在国产编程模型的竞争格局中,GLM-4.7 的位置值得重新审视。
GPT-6已完成Stargate数据中心预训练,进入安全对齐阶段。公开数据显示数学推理92.5%,代码生成96.8%。OpenAI将产品部门更名为"AGI部署部",ALL IN信号明确。
MiniMax M3即将在本月发布,重点提升agentic能力和办公场景适配。此前M2.7已在本地模型评测中表现优异,M3预计将进一步缩小与头部模型的能力差距。
智谱 GLM-5.1 以 MIT 开源协议登陆 0G Private Computer,754B MoE 架构的旗舰模型在 TEE 可信执行环境中运行,FP8 量化格式,开创了开源大模型与隐私计算结合的新范式。
Anthropic 正为 Claude Cowork 平台开发名为 "Orbit" 的新功能,开发者门控代码为 "tibro enabled"。该功能可能在即将到来的 Code with Claude 大会上正式发布,预计将增强 Claude 的自主任务执行能力。
WLFI 生态旗下 WorldClaw 推出 WorldRouter,聚合 300+ AI 模型(Claude、GPT、Gemini 等),比官方定价低 30%,支持 USD1 稳定币结算。最高档套餐附赠海湖庄园私人活动抽奖机会。
智谱清言推出大规模免费 Token 活动:注册即送 200 万通用 Token,GLM-4.6V 视觉模型 600 万,GLM-4.5-Air 1200 万。无需实名认证,手机号即可注册。这波操作直接降低了国产模型的使用门槛。
OpenAI 正式推出 ChatGPT 自助广告平台,面向美国广告主开放。最低投放门槛从 $25 万降至 $5 万,新增 CPC 竞价和转化追踪,引入 Pacvue、Kargo、StackAdapt 等广告技术合作伙伴。
DeepSeek V4 Pro 在 FoodTruck Bench 上与 GPT-5.2 持平,延迟 10 周发布的原因是为了适配国产芯片。推理成本仅为美国同类模型的 1/17,标志着中国 AI 从"模型追赶"转向"算力自主"。
OpenAI 将 GPT-5.5 Instant 设为 ChatGPT 默认模型,全员免费可用。回复精简 30%,高风险领域幻觉降低 52.5%,记忆和个性化同步升级。
月之暗面发布 Kimi K2.6 开源编程模型,支持 256K 上下文、OpenAI 兼容接口、图像视频理解,SWE-bench Multilingual 声称超越 GPT-5.4 和 Opus 4.6,且完全免费。
MiniMax 在 M2.7 之后即将发布 M3 版本,并首次展示了 Office Agent 能力预览。在 GDPval-AA 评测中 M2.7 得分 1514,虽不是最高分但走出了差异化的 Office 办公场景路线,与 DeepSeek、Kimi、GLM 形成错位竞争。
腾讯悄然开源 1.8B 参数翻译模型,提供 2bit 和 1.25bit 两个量化版本,手机端可直接运行,翻译评分接近 Qwen3-32B 水平,标志着大模型赛道向小模型精细化竞争转向。
蚂蚁集团灵光团队正式开源 Ling-2.6-1T,1 万亿参数 MoE 架构,聚焦 token 效率而非参数量竞赛。相比同类万亿模型,推理成本更低、Agent 适配更直接,为生产部署提供了新的开源选择。
百川智能曾是"AI四小龙"中最受瞩目的选手之一,但Baichuan 4发布后声量远不及Qwen、DeepSeek、Kimi。本文分析百川的技术路线、开源策略及在激烈竞争中的突围路径。
Google Gemini 3.2 Flash 模型已在 Google AI Studio 和 iOS 应用中灰度出现,定位为兼顾速度与推理的全能型模型。能力接近 Gemini 3.1 Pro 但保持 Flash 级别的速度。Google I/O 大会(5月19日)预计正式公布。
社区开源 Qwen3.6-27B-Claude-Opus-Reasoning-Distill-v2,将 Qwen3.5 推理能力与 Claude Opus 蒸馏结合,4-bit 量化后可在消费级 GPU 运行,标志着开源推理模型进入新阶段。
DeepSeek 4月底连发两项视觉能力升级:DeepSeek Vision Beta 原生接入聊天界面,以及《用视觉原语思考》技术报告提出"边指边想"的双轨推理机制,突破传统多模态模型的语言思维局限。
OpenAI 在 ChatGPT 中静默上线 GPT-5.5 Instant 模型,多项基准测试显著跃升:AIME 2025 从 65.4% 升至 81.2%,GPQA 从 78.5% 升至 85.6%,幻觉率降低 52.5%。这是 OpenAI 持续压缩模型发布节奏的最新动作。
月之暗面 Kimi K2.6 在设计竞技场中超过 GLM 5.1 和 GPT-5.5,同时在 SWE-Bench Pro 上与 Claude 和 GPT-5.5 拉平,成本仅为三分之一。中国开源模型正在从"追赶"转向"平价替代"。
月之暗面 Kimi K2.6 正式登陆 OpenRouter,输入 $0.95/MTok、输出 $4/MTok 的定价策略直接对标 Claude Opus 4.7。这是国产模型首次以激进定价出现在国际模型聚合平台上,标志着中国开源模型开始争夺全球开发者市场。
OpenAI 于 5 月 5 日发布 GPT-5.5 Ultra,在推理和编程任务上超越 GPT-4,但 token 消耗量显著增加,引发对计算效率和成本的讨论。这是 OpenAI 在 GPT-5 系列的又一次迭代更新。
Google 在 2026 年 5 月初对 Gemini 进行了一次大规模更新:引入 Notebooks 项目记忆系统、支持生成并下载 PDF/Word/Excel 等格式文件、推出原生 Mac 桌面应用。这不是功能堆砌,而是 Google 将 Gemini 从聊天机器人升级为生产力基础设施的战略动作。
蚂蚁集团百灵 Ling-2.6 系列在 OpenRouter 周榜上冲到第 16 位,上线仅数天就压过老牌模型 GLM 5.1。Ling-2.6-Flash 已开源,定位为生产级而非噱头驱动的模型,在推理效率和 Agent 性能上有显著优化。
2026 年 5 月 State of AI 报告显示,DeepSeek V4 和 Kimi K2.6 在 SWE-Bench Pro 上得分与 Claude Opus 4.7、GPT-5.5 持平,推理成本仅为后者的三分之一。但 FrontierSWE 长程任务测试揭示了新的能力分水岭。
Google 在 Gemini 聊天中新增文件生成功能,用户可直接对话生成 Docs、Sheets、Slides、PDF、Word、Excel 等格式文件。AI 办公能力从"建议"跃升到"执行",标志着 Google Workspace 与 Gemini 的深度整合进入新阶段。
月之暗面(Moonshot AI)于 4 月 29 日发布 Kimi 超级上下文升级,上下文窗口突破 2000 万 token,可同时处理整个技术手册库。这是继 Gemini 2M、Claude 1M 之后的又一个里程碑,标志着长文本竞争进入千万级时代。
阿里 Qwen Image 2.0 Pro 在 LMSYS Arena AI 文生图排行榜登顶第 9 名,人像类第 6、写实摄影类第 7,成为首个跻身该榜单前十的国产图像模型。
Anthropic CEO公开表示,Claude已参与设计下一代Claude的大部分工作。这一信号意味着AI系统正在从"被训练的工具"转向"自我进化的智能体"。
实测表明 Opus 4.7 负责架构规划、GPT-5.5 负责代码执行的双模型工作流,在编码质量与效率上显著优于单模型方案。本文拆解工作流设计、提示词模板与成本分析,给出可复用的最佳实践。
Meta 将其新一代基础模型 "Avocado" 的发布计划从 3 月推迟至 5 月,同时内部战略重心从开源 Llama 系列转向闭源前沿模型。扎克伯格的开源路线面临内部质疑,Meta 正从"开源推动者"转变为"开源与闭源双轨并行"。这一转向将重塑开源 AI 生态的竞争格局。
Qwen 与 Fireworks AI 达成战略合作,首次将 Qwen 系列闭源权重模型通过第三方推理平台对外提供。这意味着全球开发者无需翻墙或注册阿里云,即可以极低延迟调用 Qwen3.5、Qwen3.6 等最新模型。
国内AI软件用户排名出炉:豆包3.45亿居首,通义千问1.66亿位列第二,DeepSeek 1.27亿第三。千问App已进化为集文档分析、代码编写、图像理解于一体的AI操作系统。
Google I/O 2026 大会前泄露信息显示,Google 正在测试名为 "Omni" 的全新统一多模态模型,集成文字、图片、视频和长上下文能力。Gemini 视频生成界面已显示 "Powered by Omni",直接对标 Seedance 2.0 和 Veo 系列。
月之暗面在 arXiv 发布 Kimi K2 技术论文,提出"Open Agentic Intelligence"训练范式。论文核心洞察是:高质量文本 token 即将耗尽,继续往模型里"倒数据"的边际收益递减。K2 转而通过 Agent 自我交互生成训练数据,实现能力跃迁。这一思路与 OpenAI 的 process supervision 和 DeepSeek 的 RL 路线形成鲜明对比。
OpenAI 于 4 月 28 日静默上线 GPT-5.5 后端更新,引入 Persistent Reasoning(持久推理)能力,允许模型在复杂编程任务中思考数分钟。此次更新未做官方宣布,但开发者社区已发现多项行为变化。
MiniMax 核心开发者确认 M3 "不会太远",与 GPT-5.6、Sonnet 4.8、Gemini 3.5 同台竞技。回顾 M2.7 的自进化架构与百万上下文能力,预判 M3 的技术路线与市场定位。
Qwen 团队前技术负责人林俊旸(Junyang Lin)发表新观点:大模型的下一个阶段不是让模型"想得更久",而是让模型"为了行动而思考"。这一判断直指当前 CoT 和长推理路线的局限性,为 Qwen 后续 Agent 化指明了方向。
Qwen 团队确认已跨越 27B 参数门槛,下一个目标是 8B 端侧模型。结合 Qwen 3.6 系列已有的 35B/3.6B MoE 布局,阿里正在构建从云端到端侧的全尺度开源模型矩阵,直接对标 Llama 的开源端侧战略。
GDPval-AA 最新评测显示,小米 MiMo-V2.5-Pro 以 1578 分登顶中国开源模型榜单,超越 DeepSeek V4 Pro(1554)、GLM 5.1(1535)和 Kimi K2.6(1484)。五月国产开源模型密集发布,竞争进入白热化。
Cloudflare 发布 Agent Memory 私测服务,通过双通道提取、八步验证、五通道检索融合(RRF),为 AI 智能体提供跨会话持久化记忆。与 Mem0、Zep、Letta 等方案对比,差异化在于边缘分发和 Cloudflare 计算原语深度集成。
Anthropic CEO 确认 Claude 收入连续 10 倍年增长:2023 年 1 亿美元→2024 年 10 亿美元→2025 年 100 亿美元,且 2026 年 1 月仍在加速。5 月 6 日开发者大会即将发布 Claude Sonnet 4.8 或更新版本,同时 Cardinal 视觉回顾功能曝光。
OpenClaw 发布 v2026.5.3,新增内置 file-transfer 插件,Agent 可在已配对节点间执行文件读取、目录列表、文件写入和二进制传输。同时 ChatGPT 订阅现已支持在 OpenClaw 中使用。
Google IO 大会前数周,多个 Gemini 3.5 Pro 变体被社区发现。作为 Gemini 3 系列的下一代升级,3.5 Pro 预计强化多模态理解与端侧推理能力。在 GPT 5.6、Claude Sonnet 4.8、MiniMax M3 同月密集发布的背景下,Google 的端侧 AI 战略成为差异化竞争的关键。
NVIDIA CEO 确认美国出口管制已使其在中国 AI 加速卡市场份额降至零,华为昇腾预计 2026 年 AI 芯片收入达 120 亿美元。同时 Micron 财报显示 AI 需求正消耗全球超过一半的 DRAM 产能。
Hermes Agent v0.12.0 推出 Kanban 任务看板,支持多 Agent 并行协作;同时发布桌面应用,统一管理多 Agent、模型供应商和跨平台会话。社区反应热烈,推文 24 小时获 78 万浏览和 4400+ 点赞。
Qwen3.6-27B 在 AIME25 数学竞赛基准上达到 100% 准确率,成为少数达成此成就的开源模型。相比 Qwen3.5 平均性能大幅提升,特别是在数学推理类任务上展现出针对性调优效果。这一结果标志着 27B 级别开源模型的数学推理能力已逼近闭源旗舰。
DeepSeek V4 Pro API 的 75% 限时折扣将于 5 月 5 日 15:59 UTC 结束,届时价格将从 $0.435/$0.87 飙升至 $1.74/$3.48(每百万 token),涨幅达 4 倍。已在生产环境运行的项目需紧急检查成本预算。
智谱宣布 GLM-5.1 将于 6 月以 MIT 许可开放权重,专为长时序自主工程任务设计,支持持续数小时的编码迭代与多 Agent 工具调用。
Anthropic 内部 512,000 行代码意外公开,泄露内容显示 Claude Sonnet 4.7 已被跳过,下一代直接命名为 Sonnet 4.8。5 月 6 日开发者大会即将揭晓。
智谱 AI 宣布 GLM-5.1 将于六月正式发布,采用 MIT 许可完全开源。该模型专为长时间自主执行场景优化,包括长程编码、Agent 工具调用和数小时级迭代工程,标志着开源 Agent 模型进入新阶段。
Google 发布 Gemini 3.1 Ultra,原生支持 200 万 token 上下文窗口,文本/图像/音频/视频统一处理。同时 LMSys 竞技场出现新版 Gemini Flash 模型,预计将在 Google I/O 大会上正式亮相。
阿里通义千问在 OpenRouter 上线 Qwen 3.6 Max Preview,采用万亿参数稀疏 MoE 架构,262K 上下文窗口,专为 Agentic Coding 和工具调用优化。定价 $1.30/$7.80 per M tokens,为当前最具性价比的旗舰级模型之一。
Qwen3.5/3.6 系列模型支持思考模式但容易过度思考,浪费大量 token 且回复缓慢。社区发现的 Grammar 约束方案可将 think token 消耗降低最多 22 倍,同时保持准确率。
月之暗面 Kimi K2.6 正式登陆 June AI 平台。作为开源权重模型,K2.6 以编码驱动和持续自主执行为核心,特别擅长长程软件工程、Swarm 编排和迭代式开发。在 SWE-bench 等编码基准上已经接近或超越闭源旗舰,同时保持开源可访问性。
中文开发者社区出现大规模从 Claude Code 切换至 DeepSeek V4 Pro 的趋势——价格仅为 CC 的 1/40,性能差距却远小于价格差。Hermes 与 CC 的 harness 对比成为核心争议点。
GPT-5.5 参数规模从最初估算的 9.7T 被重新修正为 1.5T,差距达 6.5 倍。OpenAI 用更小的模型击败更大的对手,证明训练效率比参数堆砌更重要。同时 GPT-5.5 标志着 ChatGPT 向"超级应用"转型。
Google I/O 大会前,多条泄露信息指向 Gemini "Omni" 多模态模型正在测试,同时 Gemini 3.5 Flash 和全新视觉模型 "spark Robin" 也浮出水面。Google 正在从"AI助手"向"全场景智能基础设施"转型。
Google 悄悄为 Gemini 推出 Projects 功能,将文件和指令统一管理,支持跨会话记忆。这标志着 Gemini 从一次性问答工具向持续性 AI 工作空间的转变。
Anthropic 内部已开始对代号 "claude-jupiter-v1-p" 的新模型进行红队测试。结合 GPT-5.5 与 Mythos 的 AISI 评估对比,Anthropic 的下一代模型竞争策略逐渐清晰。
研究人员重新测算 GPT-5.5 参数量为 1.5T,远低于此前估算的 9.7T,误差达 6.5 倍。这一发现暗示 OpenAI 在模型架构效率上取得了突破性进展——用更少的参数实现了更强的性能。同时期模型发布节奏已压缩至月更,行业竞争进入拼效率的新阶段。
月之暗面确认 Kimi K2.6 将于六月以开源权重发布,核心定位是"编程驱动 + 长周期自主执行",特别针对大规模软件工程与 Swarm 任务编排。该模型将采用 Modified MIT 许可,免费开放 API 与 Cloud 使用。
月之暗面计划于 Q3 发布 Kimi K3,参数规模超 2.5 万亿,内部已测试远超 100 万 token 上下文。算力成为唯一瓶颈,国产大模型长文本竞赛进入新阶段。
小米开源 MiMo-V2.5 和 MiMo-V2.5-Pro 模型,首日即获 vLLM 支持。Pro 版聚焦长周期工具使用和前沿编程,定位 Agentic AI 场景,为开源社区提供新的高性能基座选择。
Google 发布 Gemini CLI,一个完全免费的终端 AI 智能体,支持 Gemini 2.5 Pro 模型,100 万上下文,每日 1000 次请求,开源且内置 MCP 支持。只需 Google 账号即可使用,直接挑战 Claude Code 和 Codex 的终端市场。
MiniMax 官方确认 M3 模型将于 5 月发布,定位为办公场景专用模型。M2.5 已在 SWE-bench 拿下 80.2%,M3 若在多模态办公场景实现突破,将补齐国产模型在生产力工具端的最后拼图。
Anthropic 5 月 6 日 "Code with Claude" 开发者大会前夕,Claude Sonnet 4.8 的 512,000 行内部代码被公开泄露。视觉精度接近 98%、编码基准 +12 分、新增 "X-high" 努力级别,Sonnet 系列迎来最大幅度升级。
Claude Mythos 最新测试数据显示,在关系指导等容易引发 AI 谄媚的场景中,Mythos Preview 的谄媚率仅为 Opus 4.6 的四分之一。业内分析认为 Mythos 在 6 月 30 日前发布的概率约为 30%。Anthropic 的下一代旗舰模型正在逼近发布节点。
开发者实测将工作流切换到 DeepSeek V4 Pro 后体验极佳:性能相比其他模型差距不大,价格仅为 Claude Code 的 1/40。配合 Hermes Agent 等框架使用,性价比优势显著。
Qwen 3.6 系列以 27B 稠密模型、Plus、Max 三档定位形成完整产品线。27B 单卡可跑、Plus 性价比最优、Max 攻坚复杂任务,阿里云甚至对 27B API 定价高于 Plus。这套矩阵背后是阿里巴巴对 AI 生态的系统性布局。
智谱发布 GLM-5.1,面向 AI Agent 的新一代旗舰模型,在 SWE-Bench Pro 评测中领先。核心突破是在 600 次迭代优化中展现持续改进的长程推理能力,专为需要长时间持续工作的 Agent 场景设计。
Google 发布 Gemini Enterprise Agent Platform,支持 200+ 模型(含 Gemini 3.1 和 Claude)、内置编排/安全/DevOps 全链路,支持从原型到生产的完整 Agent 生命周期管理。这是 Google 在企业级 Agent 赛道上最重的一次出牌。
Kimi K2.6 与 MiMo V2.5 Pro 在 Intelligence Index 上拿到 54 分,距离 GPT-5.5 的 60 分仅差 6 分。当开源模型以 1/5 的价格提供接近闭源旗舰的能力时,行业竞争逻辑正在被重写。
DeepSeek 宣布 V4 全系列 API 缓存命中价格降至原价 1/10,叠加 V4-Pro 75 折优惠后缓存命中仅 $0.0036/M token,比 GPT-5.5 便宜 139 倍。长上下文成本瓶颈被打破,百万 Token 场景进入实用阶段。
面壁智能 MiMo V2.5 Pro 以 1T MoE 架构和 100 万 token 上下文窗口登上 Intelligence Index 榜单,与 Kimi K2.6 并列国产开源模型最高分位。在 DeepSeek V4 Pro(1.6T/49B)和 Qwen3.6 Plus 的夹击下,MiMo 的突围路径和差异化定位值得关注。
阿里通义千问 Qwen 3.6 Max Preview 正式上架 OpenRouter,1 万亿参数 MoE 架构、262K 上下文窗口,输入 $1.30/百万 token、输出 $7.80/百万 token。这是目前性价比最高的万亿参数模型,直接对标 GPT-5.5 和 Claude Opus 4.7 但价格低 60% 以上。
MiniMax M3预计5月发布,社区已传出预热信号。结合M2.7的激进定价策略(输入0.3美元/百万token)和Agent能力,M3可能引发新一轮国产模型价格战,同时挑战主流模型的性能标杆。
智谱宣布自 2026 年 4 月 30 日起终止 GLM Coding Plan「无周限额」老套餐的自动续订,受影响用户获赠 2 个月新套餐权益。这是国产 AI 编程工具从"获客导向"转向"收入导向"的标志性事件。
DeepSeek V4 的延迟发布揭示了一个重大战略转向——深度整合中国国产昇腾芯片生态。CCTV 关联账号的报道确认了这一变化,标志着中国头部 AI 公司正从英伟达依赖走向芯片自主。
Intelligence Index 最新数据显示,Qwen3.6 27B 以 1414 的 Elo 评分追平 284B 参数的 DeepSeek V4 Flash,相比 Qwen3.5 27B 暴涨 257 分。小参数模型的效率革命正在改写 AI 行业的成本叙事。
GPT-5.5 发布仅五天,GPT-5.6 已在 Codex 内部跑流量;同时 API 价格翻倍。OpenAI 的补贴时代正式终结,市场从"增长故事"转向"盈利纪律"。
DeepSeek 公开多模态大语言模型论文《Thinking with Visual Primitives》,基于 DeepSeek-V4-Flash MoE 架构(总参数 284B/激活 13B),采用自研 DeepSeek-ViT 视觉编码器,14×14 patch 输入后经 3×3 空间压缩再接入 LLM,为开源多模态模型提供了新架构参考。
月之暗面 Kimi K2.6 以比 Claude 便宜 9 倍的定价杀入市场,在设计输出场景实现 7 倍性价比。这不是简单的价格战,而是开源模型对闭源定价体系的结构性冲击。
MiniMax M2 在多项评测中被 GLM-5 和 Kimi K2.5 超越,股价持续走低。社区传出 MiniMax 3.0 即将发布,这能否帮助公司重回国产模型第一梯队?本文分析 MiniMax 的竞争困境与 3.0 的翻盘机会。
xAI 透露正在 Colossus 2 集群上同时训练 7 个 Grok 模型,参数规模覆盖 0.5T 到 10T,同时 Grok 4.3 已在 agentic tool calling 榜单登顶,以 $1.25/MTok 的价格提供百万级上下文窗口。
Qwen3.6-Plus 采用混合稀疏 MoE 架构,原生支持 1M 上下文窗口和内置工具路由,在 SWE-bench 上达到 78.8% 得分,价格仅为 Claude Opus 的五分之一,正在成为日常 Agent 工作负载的性价比首选。
OpenAI GPT-6 代号 "Goblin",计划于 2026 年 9 月 29 日 DevDay 正式官宣。这一消息在 Polymarket 和 X 上引发广泛讨论,Aschenbrenner 的 AGI 2027 预测再次成为焦点。GPT-6 将如何影响 Anthropic、Google 等竞争对手?
Kimi K2.6 基于 DeepSeek v3 的 MoE+MLA 架构,而 DeepSeek V4 的训练优化器源自 Kimi 团队的 Muon。中国头部开源模型形成"你中有我、我中有你"的技术循环,以 1/8 的训练成本实现闭源级性能。
Mistral AI 发布旗舰模型 Medium 3.5(128B 参数,256K 上下文窗口),同步推出 Workflows 企业编排层公开预览。ASML、ABANCA 等企业已接入,标志着 Mistral 从模型公司向全栈 AI 平台转型。
月之暗面正开发 Kimi K3,参数量达 2.5T,预计 2026 年 Q3 发布。在 Kimi K2.6(1T MoE)刚开源并获得 Intelligence Index 第 5 名的背景下,K3 的规模直接对标国际头部模型,标志着国产开源模型正式迈入万亿参数时代。
DeepSeek 将 V4-Pro 模型 75% API 折扣延长至 5 月 31 日,同时发布适配华为昇腾芯片的预览版本,标志着从 Nvidia 生态向国产算力平台的关键转向。
小米发布 MiMo-V2.5-Pro(1T/42B MoE)和 MiMo-V2.5(310B/15B MoE),均支持 1M 上下文窗口,MIT 许可开源。同步上线 MiMo Orbit 开发者激励计划,最高赠送 16 亿 Token,吸引全球 AI 开发者生态。
用户在家用服务器(24 核 CPU + 93GB RAM + AMD 9060 XT 16GB)上运行 Qwen3.6 27B 进行递归自我优化,26 小时内推理速度从 2.3 tok/s 提升至 84.3 tok/s,增幅超过 36 倍。这一实验展示了开源模型在消费级硬件上的自我优化潜力。
Meta 完成对机器人 AI 初创公司 ARI 的收购,联合创始人王晓龙和 Lerrel Pinto 将加入 Meta 超级智能实验室。Meta 2025 年成立 Robotics Studio 后首次在机器人 AI 层面积累核心技术。
Anthropic 的下一代模型 Claude 5(内部代号 "Mythos")已进入 Beta 阶段,但其展现出的自主漏洞发现能力让公司陷入两难:模型在 23 年无人发现的安全漏洞上实现自动检测,这种能力如果公开可能被恶意利用。Polymarket 预测 6 月前发布的概率低于 50%。
MiniMax M3 预计于 2026 年 5 月发布,消息称将聚焦办公场景。当前 M2.7 版本已展现出自我进化能力和全项目端到端处理实力。在 Qwen3.6、Kimi K2.6、GLM 5.1 等国产模型激烈竞争的格局下,MiniMax 能否凭借办公场景差异化突围值得关注。
蚂蚁 Ling-2.6-1T 以「快思考」执行模式打出差异化——不卷推理长度、不烧 token,而是用极低激活参数(63B/1T)实现 Agent 场景下的高效执行。小米 MiMo-V2.5-Pro 同样以 token 效率为核心卖点。国产模型正在走出一条不同于美国同行的路线。
Moonshot AI 的 Kimi K2.6 正式接入 Fireworks AI 训练平台,支持 SFT、DPO 和 RL 全流程微调。265K 上下文窗口、修改版 MIT 许可证、行业领先的训练 API,让企业开发者可以直接在 K2.6 基座上构建定制化模型。这是国产模型在训练生态层面的一次重要开放。
开源模型推理服务到底怎么选?实测对比 GLM-5.1、DeepSeek V4 Pro、Kimi K2.6 在官方 API、厂商订阅和 Ollama Cloud 上的价格、隐私和速度。重度 Agent 用户用智谱 Coding Plan Max($80/月)能撑住每月 8 亿 token。
Qwen3.6 Heretic 35B是社区基于Qwen3.6-35B微调的开源模型,在保持同等智能水平的同时大幅减少安全拒绝,支持260K上下文,可在RTX 3090/4090上流畅运行Agent任务。
MiniMax M2.5 发布后收入激增,最近 20 天营收超过去年全年,标志国产 AI 实用化元年到来。小道消息称 MiniMax 3.0 即将发布,届时将与 Kimi K2.6、GLM 5.1、Qwen 3.6 正面竞争。
OpenAI 正式宣布将于 9 月 29 日在旧金山举办 DevDay,届时发布 GPT-6 代号 "Goblin"。内部代号 "argon" 聊天截图泄露,Sam Altman 暗示将投入全部算力集群。GPT-5.6 预计将在 6 月前发布,为 GPT-6 铺垫。
阿里巴巴通义千问系列模型累计下载量突破 10 亿次。孙伟表示 DeepSeek 的成功为中国科技巨头开放 AI 技术铺平了道路,阿里借此跃居行业领军地位。斯坦福 2026 AI Index 显示阿里模型 Arena Elo 排名第五。
Google 发布 Gemini CLI v0.40.0,实验性支持本地 Gemma 模型运行,并引入智能路由机制——简单任务本地 Gemma 处理(快速且免费),复杂任务自动路由至云端 Gemini。结合 Gemma 4 26B A4B 架构,单台笔记本可实现多实例并发推理。
智谱 AI 公开博客详述 GLM-5 大规模服务调试经验:复现罕见 garbled outputs、定位 Scaling Pain 根因。744B MoE 模型在 scaling 过程中出现概率性乱码,团队通过系统性方法论解决,为行业提供了大模型服务化的一手参考。
Anthropic正在内部开发代号Cardinal的新功能,将为Claude用户提供可视化交互回顾体验。该功能将以视觉化方式呈现用户与Claude的历史对话轨迹,帮助理解和回溯复杂的AI协作过程。
Qwen3.6-27B 以 46 分登顶 Artificial Analysis Intelligence Index(150B 参数以下),35B 量化版本在 DGX-Spark 上跑出 95 tps。但完整跑完 Intelligence Index 需要消耗约 3.7 倍输出 token,成本是 Gemma 4 31B 的 21 倍。性能与效率的抉择摆在开源社区面前。
MiniMax 发布 M2.7 模型,核心创新是「模型深度参与迭代自身」的强化学习范式。在 SWE-Pro 上逼近 Opus 水平,输入价格仅 2.1 元/百万 token,是目前性价比最高的 Agent 编码模型之一。
DeepSeek V4 Pro API 推出限时 75% 折扣至 5 月 5 日,同时宣布 Claude Code、OpenClaw、OpenCode 三大工具已集成支持 1M token 上下文窗口。这是目前以最低成本体验万亿参数 MoE 模型的窗口期。
月之暗面正式官宣下一代主力模型 Kimi K3,参数规模达 2.5 万亿,定于 2026 年第三季度发布。在 Kimi K2.6 刚开源即引发行业震动的背景下,K3 的发布将进一步缩小与国际顶尖模型的差距。
月之暗面 Kimi K2.6 在 LiveBench 评测中击败 Claude Opus 4.7,成为最强开源模型。API 价格仅为 Opus 4.7 的 1/7,标志着开源模型在关键评测维度上已全面对标闭源旗舰。
Meta Llama 4 Scout 正式发布,17B 激活 / 109B 总参数的 16 专家 MoE 架构,支持 10M Token 上下文,输入价格 $0.08/M。这是 Muse Spark 闭源前 Meta 最后的开放权重模型。
阿里巴巴 Qwen 3.6 27B 以 46 分登顶 Artificial Analysis Intelligence Index 150B 以下开源模型榜首,Vals Index 排名第 8。270 亿参数的笔记本级模型正在改写开源与闭源的竞争格局。
阿里巴巴 Qwen3.6-Max-Preview 在 SWE-bench 上达到 78.8%,配合 1M 上下文窗口,编码能力全面超越多数竞品。社区共识:单一编码工具的差异化护城河已消失,竞争转向可靠性与边缘场景处理。
开源个人 AI 助手 OpenClaw 两天内第二次更新,记忆系统从检索式召回升级为人物感知 Wiki。Agent 可自动构建人物卡片、追踪人际关系图谱,每条记忆带来源追溯和证据类型标注。Active Memory 新增按对话 ID 过滤和持久化标记能力。
Anthropic 在 Hugging Face 开源 BioMysteryBench——包含 99 道基于真实数据集的生物信息学开放性问题,其中 23 道连领域专家也无法解答。Claude Mythos 解开了约 30% 的"不可能"题目,标志着 AI 从辅助研究向自主科研的跨越。
Google 正式发布 Gemini Embedding 2,将文本、图像、视频、音频和文档映射到统一的嵌入空间,支持 agentic 多模态 RAG 和视觉搜索。开发者可针对检索、搜索、分类等任务进行专业化微调,最大化多模态应用的效率和准确率。
4 月 30 日 LMArena 文本榜更新,文心 5.1 Preview 以 1476 分拿下国内第一,成为全球前 15 名中唯一的国产模型,超越 GPT-5.5 和 DeepSeek-V4-Pro。在国产模型全面追赶的当下,这一排名信号意味着什么?
蚂蚁集团旗下蚂蚁百灵开源 Ling-2.6-Flash(104B/7.4B 激活)与 Ling-2.6-1T(1T/63B 激活),MIT 许可。SWE-Bench Verified 62 分、BFCL-V4 67 分,以极致 token 效率切入 Agent 赛道。
月之暗面发布 Kimi K2.6 Agent Swarm,将并行子代理从 100 提升至 300 个,单次运行步长从 1500 跃升至 4000 步,可一次性输出 100+ 文件、10 万字文献综述或 2 万行数据集。这不仅是参数升级,更是 Agent 规模化范式的跃迁。
复旦大学、北京大学与奇绩智峰联合提出 Agentic Harness Engineering(AHE)框架,让代码 Agent 自动读取执行轨迹、发现问题并修改自身 Harness。10 轮自动化演进后,Terminal-Bench 2 pass@1 从 69.7% 提升至 77.0%,超越人类设计的 Codex-CLI Harness。
Hermes Agent 新增 ComfyUI 集成能力,Agent 可自动安装、启动、管理和运行复杂的 ComfyUI 工作流,实现图像生成、音频处理和视频管线的端到端自动化,标志着 Agent 从文本/代码领域正式扩展到创意生产领域。
金融时报报道,华为预计2026年AI芯片收入将增长至少60%至120亿美元,核心驱动力是Ascend 950PR量产及国内科技巨头大额订单。Reuters称华为计划今年生产75万枚950PR芯片。
腾讯混元团队正式发布 Hy3 Preview 开源模型(295B MoE,21B 激活参数),同时 The Information 披露腾讯员工在评估和微调 Hy3 过程中使用了 Anthropic 的 Claude 辅助——尽管 Anthropic 并未向中国提供服务。这揭示了中国模型公司获取先进 AI 能力的灰色路径。
Anthropic 分析了 100 万条 Claude 对话,系统性地揭示了模型的谄媚偏见问题,并展示了这些发现如何直接用于 Opus 4.7 和 Mythos Preview 的训练改进。
MiniMax 发布 M2.7 模型,核心创新是「模型深度参与迭代自身」——通过构建复杂 Agent Harness 驱动自身的强化学习循环,在 SWE-bench 上接近 Opus 水平。这是国产模型在自我优化方向上的一次大胆尝试。
智谱 GLM-5.1 在编程评测中与 Kimi K2.6 并列 entry 梯队,SWE-bench 成绩逼近 Claude Opus 4.7,但讨论热度远不及 Qwen 和 DeepSeek。本文从评测数据、API 定价和开发生态三个维度分析 GLM-5.1 的真实竞争力。
DeepSeek V4 识图模式在官方 App 灰度上线,国内头部大模型中最后一个不支持看图的选手终于补上了短板。实测用桂林象鼻山照片测试,模型能识别地标并推理地理位置,是真视觉理解而非 OCR。
OpenAI 于 4 月 22 日发布 Workspace Agents 研究预览版,将 ChatGPT 从个人对话工具升级为团队级自动化平台。基于 GPT-5.5 的 Codex 能力,Agents 可在 Slack 中直接调用,处理长周期复杂任务。
Claude Code 客户端源码泄露事件中暴露了 Anthropic 下一代模型的内部代号:Sonnet 4.8、Opus 4.7 以及可能为下一代 Sonnet 级模型的 Jupiter。这些信息暗示 Anthropic 正在加速多产品线并行开发。
DeepSeek V4 Flash 发布数周后,用户实测反馈集中指向工具调用能力的大幅提升。从下载文件到自动上传分析,复杂多步工作流现在可通过自然语言指令一次性完成,且成本极低。
4月30日,百度文心5.1 Preview版本悄然上线LMSYS Chatbot Arena,以1476分的Elo成绩位列全球第13、国产大模型第一。法律与政府领域排名第1,商业管理第4。核心技术亮点:参数量压缩至5.0的1/3,训练成本仅同级模型6%。
Google 近期暗示新一代 Gemini 3.5 Pro 模型即将发布,据称内部基准表现强劲,编程能力可能超越当前的 Opus 4.7 和 GPT-5.5。预计将在 Google I/O 2026 上正式亮相。
DeepSeek V4 在 Agent 能力上开源最强,内部已替代使用。本文拆解其 5 大核心训练策略:预训练注入、GRM 奖励模型、DPO 优化、课程学习和多 Agent 博弈,并给出开发者选型建议。
Meta 发布 Llama 4 Scout,17B 激活/109B 总参数的 MoE 架构,支持 1000 万 Token 超长上下文,输入仅 $0.08/M Token。这是 Muse Spark 闭源化之前,最后一个开放权重的 Meta 模型层级。
4月20日阿里发布Qwen3.6-Max-Preview,Artificial Analysis榜单登顶国产第一,SkillsBench提升9.9分,SciCode提升10.8分。
匿名模型 Elephant Alpha 身份揭晓——InclusionAI 的 Ling-2.6-Flash,一周冲上 OpenRouter 日活前十,token 使用量暴增 377%,速度比 Claude Sonnet 4.6 快 6 倍,成本低约 50 倍。
4月20日月之暗面发布并开源Kimi K2.6,万亿参数编程模型支持13小时不间断编码4000+行代码,SWE-Bench超越GPT-5.4。
4月24日DeepSeek发布V4系列,首次在训练阶段引入华为昇腾950芯片,FP4算力是英伟达H20的2.87倍,首token延迟低至20ms。
DeepSeek-V4 于 2026 年 4 月 24 日正式发布,1.6 万亿参数 MoE 架构,推理仅激活约 370 亿参数,支持 100 万 token 上下文,Apache 2.0 开源。API 输出定价 $3.48/M tokens,仅为 Claude Opus 4.7 的 1/7、GPT-5.5 的 1/9。编码 benchmark 差距已缩小至 0.2 分以内。
2026年3月,Qwen 技术负责人林俊旸离职引发核心团队集体出走。本文分析这场人才地震对通义千问后续发展、开源生态以及中国 AI 人才格局的深远影响。
Qwen3.6-Plus 模型正式在 Together AI 平台上线,开发者可通过标准 API 直接调用。这是通义千问系列模型在西方主流推理平台的重要部署,标志着国产大模型全球化生态的进一步扩展。
Anthropic 在支持文档中悄然增加条款:Pro 用户在 Claude Code 中使用 Opus 模型需额外开启 API 计费。这是"付费墙内的付费墙",标志着 AI 编码工具的补贴时代正在终结。
Anthropic 宣布 Claude Managed Agents 的记忆功能进入公开测试。Agent 现在可以跨会话保存和执行上下文,以文件形式持久化记忆层,标志着 Anthropic 正式补齐 Agent 持久化能力。
Anthropic CEO Dario Amodei 公开表示,距离 Claude 端到端完成人类大部分或全部工作可能只有 6-12 个月。这一预测与 Opus 4.7 的实际能力展示和 5GW 算力扩展计划形成呼应。
GitHub 宣布自 6 月 1 日起,Copilot Pro 年付用户的模型调用将从按次计费改为按 Token 用量计费,Claude Opus 4.6 倍率从 3x 涨至 27x,Sonnet 4.6 从 1x 涨至 9x,引发开发者社区强烈反应。
OpenAI 宣布针对 GPT-5.5 启动生物安全漏洞赏金计划,提供最高 2.5 万美元奖励,邀请研究人员寻找突破五道生物安全挑战的通用越狱方法,测试范围限定于 Codex 环境。
OpenAI 正通过可信访问生态系统和政府合作逐步 rollout GPT-5.5-Cyber,标志着高危领域前沿模型从公开可用转向受控分发。网络安全攻防能力已被列为高风险等级。
OpenAI 和 Anthropic 最新发布的提示词指南显示,GPT-5.5 偏好结果导向的自由度,而 Claude Opus 4.7 偏好结构化指令。两种提示词哲学背后反映了两家对模型推理路径的不同设计理念。
OpenAI 于 4 月 23 日发布 GPT-5.5,采用全新 Spud 预训练架构,编码与研究能力显著提升。但价格较 GPT-5.4 翻倍至输入 5 美元/百万 token,DeepSeek V4 同日开源发布形成直接竞争。
OpenClaw 发布 v2026.4.27 版本,正式上线 Codex 计算机控制功能。Agent 现在可以直接操控用户桌面,支持 GPT-5.5 和 Claude Opus 4.7 等多种模型,启动速度更快,支持更多通信渠道。
2026年4月25日,一家名为PocketOS的SaaS公司因Claude Opus 4.6驱动的AI编程Agent在9秒内删除了全部生产数据库和卷级备份,导致30小时运营中断。事件暴露了Agent自主操作数据库时的权限控制空白。
阿里巴巴于 4 月 20 日发布 Qwen3.6-Max-Preview,为千问系列最强旗舰的早期预览版。在 Artificial Analysis 智能指数中得分 52,超过 GLM-5.1 和 MiniMax-M2.7,成为得分最高的国产模型,智能体编程能力显著提升。
GPT-5.5 通过 Codex Agent 模式实现浏览器接管和电脑操作,包括自主导航网页、取消订阅、客服谈判等真实任务。这是 Agent 能力从代码执行向日常操作的重要扩展。
OpenAI 发布 GPT Image 2.0,在文字渲染和角色一致性上达到当前最佳水平。该模型已集成到 Higgsfield、MaxFusion 等平台,并支持 ChatGPT 免费账户使用。
OpenAI 正式登陆 AWS Bedrock,提供 GPT-5.5、Codex Agent 和全新 Bedrock Managed Agents 服务。这标志着 OpenAI 结束了与 Microsoft 的独占协议,AI 进入多云 Agentic 时代。
IBM 发布 Granite 4.1 开源模型家族,包含稠密文本架构、512K 上下文窗口及专用视觉和语音变体,采用 Apache 2.0 许可。这是 IBM 在开源 AI 领域的又一次重要布局。
Mistral 发布 Medium 3.5,128B 稠密旗舰模型,集成文本与视觉理解,支持 256K 上下文和可配置推理强度,SWE-bench Verified 达到 77.6%,可在约 64GB 内存本地运行。
Qwen3.6 系列包含 2.7B 和 27B 两个开源版本,以及 1T 参数的 Max Preview 闭源版本。27B 稠密模型在编码和工具调用方面表现突出,Vals Index 排名第 8,BridgeBench 诚实度评测排名第 2。Apache 2.0 许可证对商用极其友好。
阿里巴巴推出多模态视频生成模型 HappyHorse 1.0,在 Artificial Analysis Video Arena 榜单中位列第一,支持原生 1080P、15 秒时长及 7 种语言唇形同步。
Google 正在将 Gemini 模型能力扩展至汽车、Mac 设备和企业服务等多个领域。General Motors 宣布在 400 万辆汽车中集成 Gemini,Gemini App 登陆 Mac 平台,AI Impact Summit 2026 进一步展示了 Google 在 AI 合作与生态建设上的布局。
Anthropic 于 2026 年 4 月 28 日宣布 Claude for Creative Work,将 Claude 的能力拓展至视觉设计和创意工作领域。这是 Anthropic Labs 继 Claude Design 之后在创意工具方向的又一动作,标志着 AI 从文本和代码向视觉创意领域的正式进军。
月之暗面(Moonshot AI)于 2026 年 4 月发布 Kimi K2.6 旗舰模型,与 GPT-6、Claude Opus 4.7 同窗口期正面竞争。该模型在中文理解和长文本处理方面表现突出,为国内 AI 应用开发者提供了新的模型选择。
GPT-5.5 定价 $5/$30 成为最贵前沿模型,Claude Opus 4.7 降至 $25 输出价,DeepSeek V4 仅 $3.48。从 GPT-5.0 到 5.5 输入价涨 8 倍,行业价格分层加剧。
Microsoft 宣布在 365 Copilot 中引入 Claude Opus 4.7,通过 Frontier 计划和 Copilot Studio 上线,并逐步扩展到 Excel。这是 Anthropic 模型首次大规模进入 Microsoft 企业生态。
DeepSeek V4 于 4 月 24 日开源,1.6T 参数 MoE 架构,1M 上下文窗口,Apache 2.0 协议。API 定价 $3.48/M 输出,仅为 GPT-5.5 的 1/9。在 Vibe Code Benchmark 上超越所有开源和闭源模型。
OpenAI 于 4 月 23 日发布 GPT-5.5,在 Terminal-Bench 2.0 以 82.7% 拿下 SOTA。但同期 GPT-5.5 定价达 $5/M 输入、$30/M 输出,成为最贵前沿模型,行业价格分化加剧。
Meta 自 2025 年初以来首次发布重大模型 Muse Spark,在 LMSYS 文本 Arena 并列第三、视觉 Arena 并列第二。Artificial Analysis 指数上 Opus 4.7、GPT-5.4、Gemini 3.1 Pro 三强并列。
MiMo-V2.5 在 ClawEval 标准 Agent 任务中单轨迹仅用约 7 万 Token 达到 64% 通过率,Claude Opus 4.6 和 GPT-5.4 普遍在 12-18 万 Token。同等能力下成本节省 40%-60%,1M 上下文窗口标配。
MiMo-V2.5-Pro 独立完成北大 SysY 编译器项目:词法分析到 RISC-V 后端全覆盖,4.3 小时、672 次工具调用、233/233 满分。全程不崩、不跑偏、不失忆,验证千次级调用的上下文保持能力。
4月29日商汤发布原生理解生成统一模型 SenseNova U1,告别插件式 AI 架构,开源即达到 SOTA 水平。这是国产大模型在架构创新上的又一突破。
回顾 2026 年 4 月 AI 领域的重大事件:GPT-5.5 发布、DeepSeek V4 开源、中国叫停 Meta 收购 Manus,以及中国团队一周内发布 3 款前沿模型的惊人速度。
Anthropic推出Claude 4系列模型,在安全性和智能性方面再次突破,成为企业AI应用的首选。
DeepSeek 宣布全系列 API 输入缓存命中价格降至原价的 1/10,V4-Pro 75% 优惠持续至 5 月 5 日。重复调用成本骤降,开发者 API 使用门槛进一步降低。
DeepSeek 正式推出 V4 系列模型,以极具竞争力的性能和低廉的成本直面 GPT-5.5 和 Claude Opus 4.7,成为开源阵营中最接近前沿水平的模型之一。
OpenAI正式发布GPT-5,在推理能力、多模态理解和上下文窗口方面实现重大突破,性能相比GPT-4提升达10倍。
OpenAI 发布的 GPT-5.5 在多项基准测试中反超 Anthropic 的 Claude Opus 4.7,结束了 Claude 自 2024 年 6 月以来的领跑地位,同时百万 Token 成本降至前代的 1/35。
小米开源 MiMo-V2.5-Pro(1.02T 参数/42B 激活)和 MiMo-V2.5(310B/15B 激活),MIT 协议允许商用和二次训练。Pro 版在 SWE-bench Pro 上追平 Claude Opus 4.6,同时推出百万亿 Token 激励计划。
据媒体报道,OpenAI 未达到其内部销售目标,消息传出后带动科技股和 AI 相关股票下跌。这可能反映企业 AI 支出节奏正在从快速扩张转向理性评估阶段。
斯坦福研究发现 Gemini 3 Flash 标价虽比 Claude Haiku 便宜 1.7 倍,但在 MMLUPro 上的实际成本反而高出 28 倍。AI 模型选型不能只看标价,实际 token 效率和任务完成率才是关键。
2026 年 4 月下旬四大模型同周发布——Claude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4。横评结果显示各领域各有赢家,不存在"全能冠军",选型需要回归具体场景。
DeepSeek 发布开源模型 V4,参数量达 1.6 万亿,支持最高 100 万 Token 上下文。API 价格仅为 GPT-5.5 的 1/7 左右,成为本周四大模型发布中性价比最高的选择。
OpenAI 于 4 月 24 日将 GPT-5.5 推入 API,定价为输入 $5/MTok、输出 $30/MTok,较 GPT-5.4 翻倍。官方称其 token 效率大幅提升,实际任务成本可能低于前代。
阿里云百炼平台正式上线 Qwen-Image-2.0-Pro,集成文生图与图像编辑能力,支持通过自然语言指令修改图片物体、文字和风格,多语言文字渲染能力显著提升,相比三月版本在细节控制上大幅升级。