Qwen3.6 Heretic 35B：コミュニティファインチューン版が拒否を大幅削減、RTX 4090で動作

結論

Qwen3.6 Heretic 35Bは現在最も注目されているコミュニティファインチューン版です。AlibabaのQwen3.6-35Bをベースに、安全性拒否率を大幅に低減しながら元のモデルの知能レベルを維持。量子化版はコンシューマーグレードのRTX 3090/4090で260KコンテキストのAgentタスクを実行可能です。

何があったか

4月下旬、コミュニティがQwen3.6-35BをベースにしたQwen3.6 Heretic 35Bをリリース。主要仕様：

項目	Qwen3.6-35B オリジナル	Qwen3.6 Heretic 35B
知能レベル	ベースライン	維持
安全性拒否率	高い	大幅に低減
最大コンテキスト	260K tokens	260K tokens
ハードウェア要件	マルチGPU/A100	RTX 3090/4090（量子化）
Agentツール使用	対応	よりスムーズ

DGX-Sparkリーダーボードでは、量子化版が95 tps、92 tps、73 tpsの推論速度を記録し、gpt-oss-120Bとgemma4-26Bを上回りました。

「拒否率低減」が重要な理由

開発者にとって、オリジナルQwen3.6はエッジケースで過度な安全性拒否をトリガーします：

コード生成：システムレベルやネットワークリクエストのコードが拒否される
データ処理：機密フィールド名を含むデータクリーニングタスクがブロックされる
Agentツール呼び出し：特定のMCPツールパラメータの組み合わせが安全フィルターをトリガー

Hereticはコア機能を低下させることなく、これらの「誤検知」をコミュニティファインチューニングで大幅に削減しました。

デプロイガイド

量子化オプション

フォーマット	VRAM	速度	精度損失
Q4_K_M	~20GB	95 tps	最小限
Q5_K_M	~22GB	92 tps	無視可能
Q6_K	~26GB	73 tps	ほぼなし

RTX 4090（24GB）：Q4_K_MまたはQ5_K_M推奨。

推奨ツール

LM Studio：自動モデル検出、ゼロ設定読み込み
Ollama：ollama run qwen3.6-heretic-35bの1コマンド
vLLM：本番デプロイ、高コンカレンシー対応

アクションアイテム

RTX 3090/4090所有者：すぐにデプロイ、既存のQwen3.6ベースを置換
Agent開発者：ツール呼び出しシナリオでHeretic版がより安定
企業ユーザー：Hereticはコミュニティファインチューン版のため、コンプライアンスリスクを評価
A/Bテスト：具体的なユースケースでオリジナルと比較

結論

何があったか

「拒否率低減」が重要な理由

デプロイガイド

量子化オプション

推奨ツール

アクションアイテム

関連コンテンツ

GPT-6が安全アライメント段階に突入：5-6兆パラメータ、数学推論92.5%、コード合格率96.8%

MiniMax M3が今月リリース予定：办公シーンに狙いを定め、agentic能力を大幅アップグレード

GLM-5.1が0G Private Computerに上陸：754B MoEモデルをTEE内で実行することの意味