上下文长不等于"能读懂"

很多模型宣称支持百万级上下文,但实测下来差距很大。"支持 1M 上下文"和"在 1M 上下文中准确找到某句话"是两回事。

测试方法:给模型一份长文档(从 128K 到 1M tokens),然后问它只有在文档特定位置才能找到答案的问题。看它能不能准确回答。

各档上下文表现

128K tokens(约 25 万字)

这个长度所有主流模型都能稳定处理。GPT-5.5、Claude Opus、DeepSeek V4 Pro 在 128K 内的信息检索准确率都在 95% 以上。

256K tokens(约 50 万字)

开始出现分化。GPT-5.5 和 Claude Opus 保持 90%+ 准确率。DeepSeek V4 Pro 约 88%。部分轻量模型(如 GLM-5.1 的 200K 上限)在这个长度已经接近极限。

500K tokens(约 100 万字)

GPT-5.5(~88%)> Claude Opus(~86%)> DeepSeek V4 Pro(~82%)> Gemini 3.5 Pro(~80%)。

1M tokens(约 200 万字)

只有少数模型真正可用。GPT-5.5(1050K)约 82% 准确率。Claude Opus(1000K)约 80%。DeepSeek V4 Pro(1049K)约 75%。MiMo-V2.5 Pro(1000K)数据不足,估计在 73% 左右。

10M tokens(Llama 4 Scout)

Llama 4 Scout 支持 10M 上下文,是目前最长的。但在这个长度上准确率大幅下降(估计 50% 以下),只适合"粗略浏览"而非"精确检索"。

谁适合长文档

需要在超长文档中精确找信息 → GPT-5.5 或 Claude Opus。它们的"注意力"最稳定。

总结一本书 / 长报告 → DeepSeek V4 Pro 够用。总结不需要 100% 精确,DeepSeek 的价格只有 1/10。

法律合同审查 → Claude Opus。法律文本对精确度要求极高,Claude 在细节召回上最好。

代码仓库理解 → DeepSeek V4 Pro 或 MiMo-V2.5 Pro。百万上下文 + 低价格,适合把整个项目代码喂进去。

长文本处理的实用技巧

1. 分段处理优于一次灌入 如果不是必须一次处理全部文本,分段处理(每段 50-100K)的质量通常比一次性灌入 1M 更好。

2. 关键信息放开头或结尾 心理学上的"首因效应"和"近因效应"在大模型身上也有体现。重要信息放在文档的开头或结尾,被准确召回的概率更高。

3. 用结构化格式 给长文档加标题、编号、Markdown 格式,比纯文本段落的处理效果好。

4. 测试你的场景 不同模型在不同类型文档上的表现差异很大。代码、法律文本、学术论文、聊天记录,各自的处理难度不同。建议用你自己的实际文档做测试。