結論
Qwen3.6 Heretic 35Bは現在最も注目されているコミュニティファインチューン版です。AlibabaのQwen3.6-35Bをベースに、安全性拒否率を大幅に低減しながら元のモデルの知能レベルを維持。量子化版はコンシューマーグレードのRTX 3090/4090で260KコンテキストのAgentタスクを実行可能です。
何があったか
4月下旬、コミュニティがQwen3.6-35BをベースにしたQwen3.6 Heretic 35Bをリリース。主要仕様:
| 項目 | Qwen3.6-35B オリジナル | Qwen3.6 Heretic 35B |
|---|---|---|
| 知能レベル | ベースライン | 維持 |
| 安全性拒否率 | 高い | 大幅に低減 |
| 最大コンテキスト | 260K tokens | 260K tokens |
| ハードウェア要件 | マルチGPU/A100 | RTX 3090/4090(量子化) |
| Agentツール使用 | 対応 | よりスムーズ |
DGX-Sparkリーダーボードでは、量子化版が95 tps、92 tps、73 tpsの推論速度を記録し、gpt-oss-120Bとgemma4-26Bを上回りました。
「拒否率低減」が重要な理由
開発者にとって、オリジナルQwen3.6はエッジケースで過度な安全性拒否をトリガーします:
- コード生成:システムレベルやネットワークリクエストのコードが拒否される
- データ処理:機密フィールド名を含むデータクリーニングタスクがブロックされる
- Agentツール呼び出し:特定のMCPツールパラメータの組み合わせが安全フィルターをトリガー
Hereticはコア機能を低下させることなく、これらの「誤検知」をコミュニティファインチューニングで大幅に削減しました。
デプロイガイド
量子化オプション
| フォーマット | VRAM | 速度 | 精度損失 |
|---|---|---|---|
| Q4_K_M | ~20GB | 95 tps | 最小限 |
| Q5_K_M | ~22GB | 92 tps | 無視可能 |
| Q6_K | ~26GB | 73 tps | ほぼなし |
RTX 4090(24GB):Q4_K_MまたはQ5_K_M推奨。
推奨ツール
- LM Studio:自動モデル検出、ゼロ設定読み込み
- Ollama:
ollama run qwen3.6-heretic-35bの1コマンド - vLLM:本番デプロイ、高コンカレンシー対応
アクションアイテム
- RTX 3090/4090所有者:すぐにデプロイ、既存のQwen3.6ベースを置換
- Agent開発者:ツール呼び出しシナリオでHeretic版がより安定
- 企業ユーザー:Hereticはコミュニティファインチューン版のため、コンプライアンスリスクを評価
- A/Bテスト:具体的なユースケースでオリジナルと比較