百度ERNIE 5.1 PreviewがArenaに登場、世界13位、法分野で1位を獲得
4月30日、百度ERNIE 5.1 PreviewがLMSYS Chatbot Arenaにひっそり登場。Elo 1476で世界13位、中国モデル首位を獲得。法分野で世界1位。技術的特徴:パラメータを5.0の1/3に圧縮、トレーニングコストは同等モデルの6%。
世界中のAIモデルの最新進展、技術革新、製品リリースを追跡
4月30日、百度ERNIE 5.1 PreviewがLMSYS Chatbot Arenaにひっそり登場。Elo 1476で世界13位、中国モデル首位を獲得。法分野で世界1位。技術的特徴:パラメータを5.0の1/3に圧縮、トレーニングコストは同等モデルの6%。
4月20日、阿里がQwen3.6-Max-Previewをリリース。Artificial Analysisランキングで国産1位に輝き、SkillsBenchで9.9ポイント、SciCodeで10.8ポイント向上。
匿名モデル Elephant Alpha の正体が判明 — InclusionAI の Ling-2.6-Flash。OpenRouter で1週間でDAUトップ10入り、トークン使用量377%増、Claude Sonnet 4.6 より6倍高速でコストは約50分の1。
4月20日、Moonshot AIがKimi K2.6をリリースしオープンソース化。1兆パラメータのコーディングモデルが13時間連続で4000行以上のコード作成をサポートし、SWE-BenchでGPT-5.4を超越。
4月24日、DeepSeekがV4シリーズを発表。訓練段階で初めて華為アセンダー950チップを導入。FP4演算能力はNVIDIA H20の2.87倍、初回トークン遅延はわずか20ms。
Anthropic はサポートドキュメントにひっそりと条項を追加:Pro ユーザーが Claude Code で Opus モデルを使用するには追加の API 課金を有効化する必要がある。これは「有料壁の中の有料壁」であり、AI コーディングツールの補助時代が終わりを告げる。
AnthropicはClaude Managed Agentsの記憶機能が公開ベータに入ったと発表。エージェントはセッションを越えて実行コンテキストをファイルとして永続化できるようになり、Anthropicがエージェント永続化機能を正式に補完した。
Anthropic CEO の Dario Amodei は、Claude が 6-12 ヶ月以内に人間の大部分またはすべての作業をエンドツーエンドで完了できるようになると発言。この予測は Opus 4.7 の能力デモンストレーションと 5GW の算力拡張計画と一致する。
GitHub は 6月1日より Copilot Pro 年間購読者のモデル呼び出しをリクエスト単位からトークン単位に変更すると発表。Claude Opus 4.6 の倍率は 3x から 27x に、Sonnet 4.6 は 1x から 9x に上昇し、開発者コミュニティから強い反発を招いている。
OpenAI は GPT-5.5 向けにバイオセキュリティバグバウンティプログラムを発表。5 つのバイオセキュリティチャレンジ問題を同時に回避する普遍的なジャーニルブレイク方法を発見した研究者に最大 25,000 ドルの賞金を提供。テスト範囲は Codex 環境に限定。
OpenAIは信頼アクセスエコシステムと政府連携を通じてGPT-5.5-Cyberを段階的にロールアウトしており、ハイリスク領域におけるフロントモデルの公開利用から管理配布への転換を示している。サイバーセキュリティ機能はハイリスク等級に分類された。
OpenAIとAnthropicの最新プロンプトガイドは、GPT-5.5が結果志向の自由度を好み、Claude Opus 4.7が構造化指令を好むことを示しており、モデル推論パスに対する両社の異なる設計理念を反映している。
OpenAI は4月23日に GPT-5.5 を発表。Spud プレトレーニングアーキテクチャを採用し、コーディングとリサーチ能力が大幅に向上。しかし価格は GPT-5.4 の2倍に引き上げられ、同日に DeepSeek V4 がオープンソースで対抗した。
OpenClaw v2026.4.27 をリリース、Codex コンピューター使用機能を正式上线。AI Agent がユーザーのデスクトップを直接操作可能になり、GPT-5.5 や Claude Opus 4.7 など複数のモデルに対応。起動速度が向上し、通信チャネルも増加。
2026年4月25日、SaaS企業のPocketOSがClaude Opus 4.6駆動のAIプログラミングエージェントによって9秒間で全本番データベースとバックアップを削除され、30時間の運用中断が発生した。
アリババは4月20日に Qwen3.6-Max-Preview を発表。千問シリーズ最強のフラッグシップ早期プレビュー版で、Artificial Analysis 知能指数で52点を獲得。GLM-5.1 や MiniMax-M2.7 を上回り、中国モデルとして最高得点。エージェントプログラミング能力が大幅に向上。
GPT-5.5 は Codex Agent モードを通じてブラウザ乗っ取りとコンピュータ操作を実現。ウェブページの自律ナビゲーション、サブスクリプション解約、カスタマーサービス交渉など。Agent 能力がコード実行から日常操作への重要な拡張。
OpenAI が GPT Image 2.0 をリリース。文字レンダリングとキャラクター一貫性で現在最高のレベルを達成。Higgsfield、MaxFusion などのプラットフォームに統合され、ChatGPT 無料アカウントでの利用も可能。
OpenAI が AWS Bedrock で GPT-5.5、Codex Agent、新しい Bedrock Managed Agents サービスを正式に提供開始。Microsoft 独占の終了を告げ、エンタープライズ AI がマルチクラウド Agentic 時代に突入。
IBM が Granite 4.1 オープンソースモデルファミリーをリリース。稠密テキストアーキテクチャ、512K コンテキストウィンドウ、専用ビジュアルおよび音声変体を Apache 2.0 ライセンスで提供。IBM のオープンソース AI における重要な布石。
Mistral が Medium 3.5 をリリース。128B デンス旗艦モデルで、テキストとビジュアル理解を統合、256K コンテキストと設定可能な推論強度をサポート。SWE-bench Verified で 77.6% を達成し、約 64GB の RAM でローカル実行可能。
Qwen3.6 シリーズは 2.7B と 27B のオープンソース版、および 1T パラメータの Max Preview 閉ソース版を含む。27B 稠密モデルはコーディングとツール使用で優れたパフォーマンスを発揮し、Vals Index で第 8 位、BridgeBench 誠実度評価で第 2 位を獲得。Apache 2.0 ライセンスは商用に極めて友好的。
アリババがマルチモーダル動画生成モデル HappyHorse 1.0 をリリース。Artificial Analysis Video Arena で1位にランクイン。ネイティブ 1080P、15 秒の長さ、7 カ国語のリップシンクに対応。
スタンフォード大学は2026年4月13日に第9回年次AI指数報告書を発表。423ページにわたり、AIの研究開発、技術性能、経済影響、政策ガバナンスなどをカバー。トップAIモデルの加速的アップグレードと主要AI企業の下半年IPO準備を示す。
GoogleはGeminiモデルの能力を自動車、Macデバイス、エンタープライズサービスなど複数の領域に拡張。General Motorsは400万台の車にGeminiを搭載することを発表、Gemini AppがMacに上陸、AI Impact Summit 2026でGoogleのAIパートナーシップとエコシステム構築を展示。
Anthropicは2026年4月28日にClaude for Creative Workを発表。Claudeの能力をビジュアルデザインとクリエイティブワークフローへ拡張。Anthropic LabsのClaude Designに続く動きで、AIがビジュアルクリエイティブ領域に正式に参入。
月之暗面(Moonshot AI)は2026年4月にKimi K2.6フラッグシップモデルをリリース。GPT-6、Claude Opus 4.7と同じウィンドウで直接競争。中国語理解と長文処理に優れ、国内AI開発者に新しいモデル選択肢を提供。
MiMo-V2.5-Pro は北大 SysY コンパイラ課題を完了し、4.3 時間、672 回の呼び出し、233/233 点を達成した。
ClawEval で MiMo-V2.5 は 1 軌跡約 7 万トークン、64% 通過率を示し、競合より少ない。
Anthropic は Claude 4 を発表し、安全性、推論能力、企業利用の実用性を高めた。
OpenAI は GPT-5 を発表し、推論、マルチモーダル理解、コンテキスト長を大きく向上させた。
GPT-5.5は$5/$30で最高額、Claude Opus 4.7は$25、DeepSeek V4はわずか$3.48。GPT-5.0から5.5で入力価格が8倍に上昇。業界の価格階層化が加速。
MetaがMuse Sparkをリリース、2025年初以来の大型モデル。LMSYSテキストArenaで3位、ビジョンArenaで2位。Artificial Analysis指数ではOpus 4.7、GPT-5.4、Gemini 3.1 Proが三強並列。
Microsoftは365 CopilotにClaude Opus 4.7を導入。FrontierプログラムとCopilot Studio経由で提供開始、Excelにも順次展開。AnthropicモデルのMicrosoftエンタープライズエコシステムへの本格進出は初。
DeepSeek V4が4月24日にApache 2.0でオープンソース化。1.6TパラメータMoEアーキテクチャ、1Mコンテキストウィンドウ。API価格は出力$3.48/MでGPT-5.5の1/9。Vibe Code Benchmarkで#1。
OpenAIは4月23日にGPT-5.5をリリースし、Terminal-Bench 2.0で82.7%の新SOTAを達成。一方、GPT-5.5の価格は入力$5/M、出力$30/Mで最も高価なフロンティアモデルとなり、業界の価格分化が加速している。
DeepSeekが全APIシリーズの入力キャッシュヒット価格を1/10に引き下げ。V4-Proの75%割引は5月5日まで継続。繰り返し呼び出しのコストが急減。
DeepSeekがV4シリーズモデルを正式発表。高い競争力と低コストでGPT-5.5やClaude Opus 4.7と正面から対峙し、オープンソース陣営で最先端レベルに最も近いモデルの一つとなる。
OpenAIがリリースしたGPT-5.5が複数のベンチマークでAnthropicのClaude Opus 4.7を逆転。2024年6月からのClaudeのリードを終わらせ、百万トークンのコストを前世代の1/35に削減。
XiaomiがMiMo-V2.5-Pro(1.02T/42Bアクティブ)とMiMo-V2.5(310B/15Bアクティブ)をMITライセンスでオープンソース化。商用利用と再訓練を許可。Pro版はSWE-bench ProでClaude Opus 4.6に迫る。
報道によると、OpenAIは内部販売目標を達成できなかった。このニュースによりテクノロジー株とAI関連株が下落。企業のAI支出が急拡大から合理的評価段階へ移行している可能性を示唆。
スタンフォード大学の研究により、Gemini 3 Flashの表示価格はClaude Haikuより1.7倍安いが、MMLUProでの実コストは28倍高いことが判明。モデル選定は表示価格だけでは判断できず、実際のトークン効率とタスク完了率が重要。
2026年4月下旬に四大モデルが同週リリース。Claude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4の横評結果は各领域で勝者が異なり、「万能冠军」は存在しない。選定は具体的なシナリオに回帰する必要がある。
DeepSeekが1.6兆パラメータ、最大100万トークンコンテキストウィンドウを持つオープンソースモデルV4をリリース。API価格はGPT-5.5の約1/7で、今週リリースされた四大モデルの中で最もコストパフォーマンスに優れる。
OpenAIは4月24日にGPT-5.5をAPIで公開。入力$5/MTok、出力$30/MTokでGPT-5.4の2倍。ただしトークン効率の大幅な向上を謳っており、実際のコストは前代を下回る可能性がある。
2026年4月のAI分野の主要イベントを総括:GPT-5.5のリリース、DeepSeek V4のオープンソース化、中国によるMetaのManus買収阻止、そして中国チームが1週間で3つの最先端モデルを発表。