C
ChaoBro

AI大模型动态

追踪全球AI大模型最新进展、技术突破与产品发布

大模型

Google I/O 2026:搜索的"Agent 化"不是升级,是重写

Google 在 I/O 2026 大会上展示了用 Agentic AI 彻底重构搜索的计划。未来的 Google 搜索不再是一个"输入关键词、返回链接列表"的工具,而是一个能自主执行复杂任务的智能代理。这不仅是搜索的升级,更是对整个搜索引擎商业模式的挑战。

#Google #AI 搜索 #Agentic AI
大模型

OpenAI 的模型推翻了一个数学猜想,然后呢?

OpenAI 的模型推翻了离散几何中的一个核心猜想,引发 629 条讨论。AI 在纯数学领域的突破令人振奋,但真正的问题不是 AI 能不能做数学,而是数学家接下来该做什么。

#OpenAI #数学研究 #AI科学发现
大模型

Google I/O 上的"通用购物车":你愿意让 AI 替你花钱吗?

Google I/O 2026 发布了一项"Universal Cart"功能——一个跨平台、跨零售商的 AI 驱动购物车。它能在 Gemini、搜索、YouTube、Gmail 中随时待命,跟踪价格、推荐折扣、甚至提醒你"这块主板和 CPU 不兼容"。Google 正在把 AI Agent 直接推到你的钱包面前。

#Google #I/O 2026 #AI 购物
大模型

Google AI Studio 登陆 Android:手机上也能 vibe coding 了

Google 正在将 AI Studio vibe coding 工具带到 Android 平台。这款应用已在 Google Play 开放预注册,用户可以通过 AI 和自然语言提示词直接在手机上构建其他应用。AI 编程的战场正在从桌面蔓延到移动端。

#Google #AI Studio #Android
大模型

OpenAI 内部人吐苦水:被 Apple 的 ChatGPT 整合"烧伤"了

据 Ars Technica 报道,OpenAI 内部人士透露,公司对 Apple 在 iOS 中集成 ChatGPT 的方式感到"burned"(受伤)。这次合作原本被视为 AI 公司与硬件巨头的标杆级合作,但实际执行中却出现了诸多问题。

#OpenAI #Apple #ChatGPT
大模型

当 AI 能秒杀所有 CTF 题目:一个顶级选手宣布'CTF 已死'

澳大利亚顶级 CTF 选手 Kabir 发文称,Claude Opus 4.5 和 GPT-5.5 的出现彻底摧毁了开放式 CTF 竞赛的公平性。评分板不再衡量人类技能,而是衡量谁的 AI 编排能力更强。文章引发安全社区激烈讨论。

#CTF #AI 安全 #Claude Opus 4.5
大模型

"AI 不会让你的流程更快"——但没人想听真话

一篇 Hacker News 热帖戳破了 AI 生产力的叙事泡沫:AI 不会让现有流程更快,它让流程变得不必要。但大多数公司还在往旧流程里塞 AI,结果就是更慢而不是更快。

#AI #生产力 #企业数字化
大模型

Zerostack:用纯 Rust 写的编程 Agent,极简主义的新范式

Zerostack 是一个用纯 Rust 编写的极简编程 Agent,受 pi 和 opencode 启发,优化内存占用和性能。支持 OpenRouter、OpenAI、Anthropic、Gemini、Ollama 等主流模型,提供四种可配置工作模式、会话管理和 TUI 终端界面,136 星引发社区关注。

#Zerostack #Rust #编程 Agent
大模型

arXiv 出台最严 AI 论文管制:生成幻觉内容直接封杀一年

arXiv 管理员在社交媒体宣布,提交包含明显 AI 生成且未核查内容的论文,将面临一年封禁及后续论文必须先经同行评审才能发布的处罚。这是预印本平台对 AI 生成内容最严厉的管制措施。

#arXiv #AI 生成内容 #学术出版
大模型

大厂分拆潮,终于轮到了 AI 部门

科技大厂进入分拆周期,AI 业务成为独立实体的趋势加速。从内部项目到独立公司,AI 部门的身份正在被重新定义。

#大厂 #分拆 #AI战略
大模型

AI 编程工具正在制造"会写但不会读"的开发者?

Claude Code、Cursor、Copilot 等 AI 编程工具普及后,一个被忽视的问题浮出水面:当 AI 能替你写代码,你还能读懂别人写的代码吗?这个技能断层可能比想象中更严重。

#AI编程 #Claude Code #Cursor
大模型

伯克利提出 AI 并行推理新范式:终结"思考用时100秒"的时代

加州大学伯克利分校的研究团队提出了一种全新的 AI 并行推理方法,让大语言模型不再需要顺序"思考",而是可以像人类大脑一样并行处理多个推理路径。这可能从根本上改变 AI 推理的效率瓶颈。

#伯克利 #并行推理 #AI推理优化
大模型

字节跳动开源 UI-TARS Desktop:多模态 AI Agent 的桌面入口来了

字节跳动将 UI-TARS Desktop 开源后,GitHub 单日新增 669 星,累计突破 3.2 万。这个项目定位为"连接前沿 AI 模型与 Agent 基础设施的开源多模态 AI Agent 栈",正在成为桌面端 AI Agent 的重要开源参考实现。

#字节跳动 #UI-TARS #多模态
大模型

OpenAI 悄悄开源了官方 CLI:一行命令调用 GPT-5.5

OpenAI 在 GitHub 上线了 openai/openai-cli,Go 语言编写的官方命令行工具,v1.1.2 版本已支持 GPT-5.5 调用和 Realtime API。不到一周 42 次提交,生态布局越来越像"全栈 SDK 公司"。

#OpenAI #CLI #开源
大模型

OpenAI推出GPT-5.5-Cyber:网络安全专用模型进入有限预览

OpenAI周四推出GPT-5.5-Cyber预览版,面向经过审核的网络安全团队有限开放。这是GPT-5.5的衍生变体,在安全相关任务上放宽了执行限制,方便合规团队开展漏洞识别、补丁验证和恶意软件分析。

#OpenAI #GPT-5.5-Cyber #网络安全
大模型

xAI 的 Grok Build:桌面端 Coding App 来了,但能打得过 Cursor 吗

xAI 即将发布 Grok Build,一款跨平台桌面端 Coding App,支持 macOS/Windows/Linux。内置 Planning Mode、Plugins、Skills、MCPs,可直接操作 Git Tree、spawn 开发服务器、内置浏览器。这是 Grok 从聊天走向工程的又一步。

#xAI #Grok Build #Coding Agent
大模型

Google 内部测试 "Remy" AI 助手:24/7 跨服务个人 Agent 来了

据 Business Insider 报道,Google 正在内部测试一款名为 "Remy" 的 AI Agent,定位为 24/7 个人助手,可在 Gemini 生态内跨服务执行操作。员工已开始 dogfooding,预示着 Google 个人 AI 助手即将进入公开测试阶段。

#Google #Gemini #Remy
大模型

GLM-4.7:智谱的开源代码模型,被低估了?

智谱 AI 的 GLM-4.7 被多家评测列为最强开源编程模型之一。NVIDIA NIM 平台免费开放其 API 调用。在国产编程模型的竞争格局中,GLM-4.7 的位置值得重新审视。

#GLM #智谱AI #开源
大模型

MiniMax 从 M2.7 到 M3:中国模型的"Office Agent"突围路线

MiniMax 在 M2.7 之后即将发布 M3 版本,并首次展示了 Office Agent 能力预览。在 GDPval-AA 评测中 M2.7 得分 1514,虽不是最高分但走出了差异化的 Office 办公场景路线,与 DeepSeek、Kimi、GLM 形成错位竞争。

#MiniMax #M2.7 #M3
大模型

Kimi K2.6 登陆 June AI:编码驱动 + Swarm 编排,自主执行的新标杆

月之暗面 Kimi K2.6 正式登陆 June AI 平台。作为开源权重模型,K2.6 以编码驱动和持续自主执行为核心,特别擅长长程软件工程、Swarm 编排和迭代式开发。在 SWE-bench 等编码基准上已经接近或超越闭源旗舰,同时保持开源可访问性。

#Kimi #月之暗面 #June AI
大模型

OpenClaw v2026.4.29:记忆系统进化,从检索式召回人物感知 Wiki

开源个人 AI 助手 OpenClaw 两天内第二次更新,记忆系统从检索式召回升级为人物感知 Wiki。Agent 可自动构建人物卡片、追踪人际关系图谱,每条记忆带来源追溯和证据类型标注。Active Memory 新增按对话 ID 过滤和持久化标记能力。

#OpenClaw #Agent #记忆系统
大模型

Google Gemini Embedding 2 正式发布:多模态 RAG 进入统一嵌入时代

Google 正式发布 Gemini Embedding 2,将文本、图像、视频、音频和文档映射到统一的嵌入空间,支持 agentic 多模态 RAG 和视觉搜索。开发者可针对检索、搜索、分类等任务进行专业化微调,最大化多模态应用的效率和准确率。

#Google #Gemini #Embedding
大模型

Qwen3.6 开源实测:27B 小模型硬刚 400B MoE,Apache 2.0 友好商用

Qwen3.6 系列包含 2.7B 和 27B 两个开源版本,以及 1T 参数的 Max Preview 闭源版本。27B 稠密模型在编码和工具调用方面表现突出,Vals Index 排名第 8,BridgeBench 诚实度评测排名第 2。Apache 2.0 许可证对商用极其友好。

#Qwen3.6 #阿里巴巴 #开源模型
大模型

Anthropic 宣布 Claude for Creative Work,AI 向创意设计领域延伸

Anthropic 于 2026 年 4 月 28 日宣布 Claude for Creative Work,将 Claude 的能力拓展至视觉设计和创意工作领域。这是 Anthropic Labs 继 Claude Design 之后在创意工具方向的又一动作,标志着 AI 从文本和代码向视觉创意领域的正式进军。

#Anthropic #Claude #创意设计
大模型

AI 模型实际成本研究:标价便宜不等于真的便宜

斯坦福研究发现 Gemini 3 Flash 标价虽比 Claude Haiku 便宜 1.7 倍,但在 MMLUPro 上的实际成本反而高出 28 倍。AI 模型选型不能只看标价,实际 token 效率和任务完成率才是关键。

#模型成本 #AI定价 #Stanford研究