C
ChaoBro

发票、结构化数据、复杂指令:国产模型真实任务能力大考,谁在编造数据?

发票、结构化数据、复杂指令:国产模型真实任务能力大考,谁在编造数据?

Benchmark 之外:真实任务才是试金石

在 AI 模型的评测体系中,SWE-bench、MMLUPro、HumanEval 等标准化 benchmark 已经成为行业共识。但一个越来越清晰的事实是:benchmark 成绩与真实任务表现之间存在显著差距

最近,社区一位开发者用同一套发票处理任务测试了多个主流模型,结果揭示了令人意外的分化:

实际发票任务测试中,只有 DeepSeek V4 Flash、GPT-5.5、GLM-5.1 可靠完成了任务。而 MIMO V2.5 Pro 和 MiniMax M2.7 编造了数据给出结果

这不是一个边缘场景。发票处理、结构化数据提取、复杂指令执行——这些看似”简单”的任务,恰恰是 AI Agent 在真实业务中最常遇到的工作负载。

测试任务:为什么发票处理能暴露模型差异

发票处理任务之所以是一个好的评测维度,因为它同时考验多个核心能力:

  1. OCR + 语义理解:从非结构化文本中提取关键字段(金额、日期、税号、供应商)
  2. 数据校验:验证提取的数据是否符合逻辑(金额是否合理、税号格式是否正确)
  3. 拒绝幻觉:当信息不完整时,模型应该如实报告”无法确认”,而不是编造数据

第三点是最关键的区分因素。一个优秀的模型在面对不确定的信息时,宁可说”不知道”也不应该编造答案

实测结果汇总

模型任务完成数据准确性幻觉风险综合评价
DeepSeek V4 Flash可靠完成
GPT-5.5可靠完成
GLM-5.1可靠完成
MIMO V2.5 Pro编造数据存在幻觉
MiniMax M2.7编造数据存在幻觉

注:此结果来自单一社区测试,样本量有限,但与其他独立评测的趋势一致。

为什么会出现这种分化?

DeepSeek V4 Flash:务实派的胜利

DeepSeek 在真实任务中表现可靠,这与它的设计哲学一致:不过度追求 benchmark 刷分,而是强调实际可用性。V4 Flash 版本在压缩成本的同时保持了足够的推理能力,在发票处理这类需要精确信息提取的任务中,它展现出了比旗舰模型更强的”克制力”——不会为了给出”完整答案”而编造数据。

GLM-5.1:智谱的工程化沉淀

GLM-5.1 在编程和结构化任务中的稳定性已经得到社区验证。在发票处理场景中,它的表现延续了这一特点:对精确性要求高的任务,GLM-5.1 的幻觉率显著低于同级别模型。这可能与智谱在知识图谱和结构化理解方面的技术积累有关。

GPT-5.5:闭源模型的基准线

作为闭源模型的代表,GPT-5.5 在这个任务中的表现符合预期——可靠、准确、低幻觉。但值得思考的是:国产开源模型(DeepSeek V4 Flash、GLM-5.1)已经在这个维度上追平了闭源标杆

MIMO V2.5 Pro 与 MiniMax M2.7:过度自信的代价

两个模型都出现了”编造数据”的问题。这反映了一个共同的隐患:当模型被训练为”总是给出完整答案”时,它在信息不确定的场景下更容易产生幻觉

这种现象在编程场景中可能不那么致命(代码执行失败会暴露错误),但在数据处理场景中是灾难性的——编造的发票金额、错误的税号信息可能直接导致财务错误。

更广泛的启示:模型选型不能只看 benchmark

这个测试揭示了一个重要的选型原则:

不同任务类型对模型能力的要求差异巨大。

任务类型关键能力推荐模型
代码生成语法正确性、上下文理解GLM-5.1、Kimi K2.6
代码调试推理链条、根因分析DeepSeek V4 Pro
数据提取精确性、拒绝幻觉DeepSeek V4 Flash、GLM-5.1
创意写作多样性、流畅度Qwen 3.6 Max
多模态理解图像+文本联合推理Kimi K2.6
高频 Agent 调用成本、速度Qwen 3.6 Plus、MiniMax M2.7

防幻觉:模型选择和 Prompt 策略

如果你的任务对数据准确性要求很高,除了选择合适的模型,还可以采用以下策略:

1. 明确告知模型”可以说不”

请从以下发票文本中提取关键字段。如果某个字段信息不完整或不确定,
请明确标注"无法确认",不要猜测或编造。

2. 使用结构化输出格式

要求模型以 JSON 格式输出,并在 schema 中标注哪些字段是必须的、哪些是可选的:

{
  "invoice_number": "必填",
  "amount": "必填,必须为数字",
  "tax_id": "选填,如果不确定请填 null",
  "vendor_name": "必填"
}

3. 交叉验证

对于关键数据,可以用两个不同模型独立提取,比较结果的一致性。如果一个模型给出确定值而另一个标注”无法确认”,应该以保守值为准。

国产模型的真实水平:进步与挑战并存

这次测试既有积极信号也有警示:

积极面:DeepSeek V4 Flash 和 GLM-5.1 在真实数据处理任务中展现出了与 GPT-5.5 相当的可靠性。这说明国产模型在精确性要求高的场景中已经达到可用水平。

挑战面:部分模型在结构化任务中仍然存在幻觉风险。这意味着在选择模型时,不能仅依赖 benchmark 排名,而必须用真实的业务数据进行验证

行动建议

对开发者

  • 建立自己的测试集:用真实的业务数据(发票、合同、报表等)在候选模型上跑一组测试,记录准确率、幻觉率和一次完成率
  • 不要只看 SWE-bench 分数:代码生成能力 ≠ 数据处理能力。根据你的实际任务类型选择模型
  • 关注模型的”拒绝能力”:一个好的模型应该知道什么时候该说”不知道”

对企业

  • PoC 阶段必须包含幻觉测试:在模型选型过程中,专门设计一组信息不完整的测试用例,评估模型的幻觉倾向
  • 关键任务使用双模型交叉验证:对于财务、法务等高风险场景,使用两个独立模型交叉验证结果

对模型厂商

  • 增加”不确定性表达”的训练:在 RLHF 阶段加入”当信息不足时应拒绝回答”的偏好信号
  • 提供结构化输出保障:支持 JSON Schema 验证,对不符合 schema 的输出进行自动修正

主要来源