Qwen 3.6 Max BS Benchmark 评测：反幻觉能力超越所有 OpenAI 模型

结论

Qwen 3.6 Max Preview 在 BridgeBench BS Benchmark（反幻觉/胡说八道检测测试）中取得 94.5 分，排名全球第二。该基准专门测试模型在面对诱导性问题时，是否能识别并拒绝生成虚假信息。

排名结果：

Qwen 3.6 Max 是排名最高的开源模型，也是唯一一个反幻觉能力超过所有 OpenAI 模型的非闭源方案。

BS Benchmark（Bullshit Benchmark）测试模型的核心能力是：当用户提出包含错误前提、虚假信息或逻辑陷阱的问题时，模型能否识别问题本身的问题，而非盲目生成看似合理但实际错误的答案。

这与传统的知识测试不同——传统测试问”你知道什么”，BS Benchmark 问”你知道你不知道什么”。

Qwen 3.6 Max 的 94.5 分意味着在绝大多数测试场景中，它能：

值得注意的是，Qwen 3.6 Max 得分超过了 GPT-5.4（91.5）和 Claude Sonnet 4.6（91.5），仅以 0.5 分之差落后于 Claude Opus 4.6。

长期以来，反幻觉能力被认为是闭源模型的”护城河”。Qwen 3.6 Max 的表现证明，开源模型在这一关键指标上已经追平甚至在某些方面超越了闭源方案。

对于需要高可靠性输出的场景（医疗、法律、金融），Qwen 3.6 Max 提供了一个开源替代方案，无需担心供应商锁定。