2026年4月16日晚,人工智能公司Anthropic宣布其最新大模型Claude Opus 4.7已正式上线。该模型现已在所有Claude产品、官方API以及亚马逊、谷歌、微软三家云平台上线,定价与前代Opus 4.6一致,每百万输入token 5美元、每百万输出token 25美元。

Claude Opus 4.7核心升级

Opus 4.7在复杂软件工程任务中的表现有所增强,能够更稳定地处理长时间运行的任务,并在执行过程中更严格地遵循用户指令。模型在长时间运行的任务中具备更高的一致性,并会在输出结果前对自身产出进行自我验证。

在多模态能力方面,模型现已支持处理最长边达2,576像素(约375万像素)的图像,较此前Claude模型提升超过三倍。Opus 4.7在各项基准中表现全面且稳定,整体处于第一梯队,在编码、推理和多领域任务上均有较强实力。

记忆方面,Opus 4.7改进了基于文件系统的记忆机制,能在跨会话的长任务中保留关键笔记。在第三方评估GDPval-AA及Finance Agent评估中,Opus 4.7取得了当前最先进水平的得分。

新增功能与变化

Opus 4.7新增一个xhigh(超高)模式,位于high和max之间,用户在处理难题时可以更细致地权衡推理深度与响应延迟之间的取舍。Claude Code中,所有套餐的默认档位已上调至xhigh。

API新增“任务预算”功能(公测中),开发者可以给模型设定一个token消耗的大致盘子,让它在长任务里知道哪儿该多花、哪儿该省。Claude Code新增/ultrareview命令,专门做代码审查,会认真读一遍改动、挑出bug和设计问题。

然而,Opus 4.7有两项变化会影响token的用量:其一,采用了更新后的分词器,对模型处理文本的方式进行了改进,代价是相同输入所映射出的token数量有所增加——依内容类型不同,大致为原先的1.0至1.35倍。其二,Opus 4.7在较高思考强度档位下的思考量有所增加,尤其是在agent类场景的后续轮次中。

性能基准对比

根据基准测试数据,Opus 4.7在SWE-bench Pro编程测试中得分从4.6的53.4%跃升至64.3%,单代提升近11个百分点,超越GPT-5.4的57.7%和Gemini 3.1 Pro的54.2%。视觉推理方面,CharXiv基准从69.1%提升至82.1%,得益于新支持的2576像素长边识别能力。工具调用规模化评测MCP-Atlas上,Opus 4.7以77.3%超过GPT-5.4的68.1%和Gemini的73.9%。

但在Agentic search评测BrowseComp上,Opus 4.7得分从83.7%降至79.3%,被GPT-5.4的89.3%和Gemini的85.9%超越。

四大模型详细对比

特性Claude Opus 4.7GPT-5.4Claude Opus 4.6Gemini 3.1 Pro
发布时间2026年4月16日2026年3月6日2026年2月5日2026年2月19日
开发商AnthropicOpenAIAnthropicGoogle
核心特点复杂软件工程增强、更高分辨率图像支持、自我验证输出原生计算机使用能力、思考过程预览、100万token上下文100万token上下文窗口、自适应思考、智能体任务持久力三层思考模式、200万token上下文、强化核心推理能力
编程能力SWE-bench Pro: 64.3%SWE-bench Pro: 57.7%SWE-bench Pro: 53.4%SWE-bench Pro: 54.2%
多模态能力支持2576像素图像处理(约375万像素)视觉感知和文档解析能力提升标准图像处理能力强大的多模态理解能力
上下文窗口200K tokens / 1M tokens (beta)高达100万tokens200K tokens / 1M tokens (beta)长达200万token
定价输入$5/MTok,输出$25/MTok未明确(通常按使用量计费)输入$5/MTok,输出$25/MTok阶梯计费,与上代相同
特殊功能xhigh模式、任务预算、/ultrareview命令思考过程预览、计算机原生操控、工具搜索自适应思考、压缩API、128K输出token三层思考模式、Deep Think技术下放
安全特性Project Glasswing网络安全防护延续原有安全防护并引入新开源评估整体安全性良好幻觉控制AA-Omniscience Index达30

用户反馈与行业影响

用户对Opus 4.7的评价较为两极。大部分用户认可Opus 4.7在编程能力的提升,但是在文案撰写、对话沟通方面槽点较多。有用户表示,官方通篇吹视觉提升,但token消耗大幅增加,同一张设计稿试了下,Opus 4.7的输入token直接飙到Opus 4.6的3倍多。

在长上下文检索上,Opus 4.6评分能到78.3%,Opus 4.7直接掉到32.2%。Anthropic解释说新模型遇到缺信息会直接报错,不像以前那样瞎编。用户实际试下来,就算信息明明白白在上下文里,它也能给你漏掉。

结论

Claude Opus 4.7代表了Anthropic在复杂软件工程和多模态处理方面的重大进步,特别是在编程基准测试中超越了主要竞争对手。然而,token消耗的增加和在某些领域(如长上下文检索)的性能下降表明,这并非一次无痛升级。对于硬核编码场景的用户来说,Opus 4.7提供了显著的价值;但对于更广泛的应用场景,用户可能需要权衡成本与收益。

随着GPT-5.4、Gemini 3.1和Claude Opus 4.7相继发布,2026年的大模型竞争已进入白热化阶段,各厂商在专业化能力、成本控制和用户体验之间寻求最佳平衡点。