Anthropic 正式發布了 Claude Opus 4.7。在 93 項編碼基準測試中,Opus 4.7 的解決率比 Opus 4.6 提升了 13%,其中包括連 Opus 4.6 和 Sonnet 4.6 都無法解決的四個任務。這不是一個小更新——這是代碼能力的一次實質性跨越。

從「能做」到「能做得好」的轉變

根據 Anthropic Co-Founder and CTO Caitlin Colgrove 的說法,Opus 4.7 最顯著的改進在於「自主性」。用戶可以將最難的編碼工作——那些以前需要密切監督的任務——放心地交給 Opus 4.7。

這不是一句空話。在 CursorBench 上,Opus 4.7 的成功率達到 70%,而 Opus 4.6 只有 58%。在 Rakuten-SWE-Bench 上,Opus 4.7 解決的生產任務是 Opus 4.6 的三倍,並且在代碼質量和測試質量上都有雙位數的提升。

這些數字背後有一個共同的特點:Opus 4.7 能夠「處理複雜、長時間運行的任務,並保持嚴謹和一致性」。它會精確地遵守指令,並設計方法來驗證自己的輸出,然後才回報結果。

具體的改進在哪裡?

讓我們看看幾個具體的改進。

在編碼方面,Opus 4.7 不僅提高了準確率,還減少了工具錯誤。根據 Michael Truell(Co-Founder and CEO)的報告,對於複雜的多步驟工作流,Opus 4.7 比 Opus 4.6 多出了 14% 的表現提升,而且使用的 token 更少,工具錯誤只有三分之一。

在視覺能力上,Opus 4.7 有了大幅度的提升。它可以看到更高解析度的圖像——最多支持 2,576 像素的長邊(約 3.75 百萬像素),這比之前的 Claude 模型多了三倍以上。這對於需要細節的應用場景至關重要:讀取密集的螢幕截圖、從複雜的圖表中提取數據、需要像素完美參考的工作。

在法律領域,Opus 4.7 展現了強大的實質性準確性。根據 Michele Catasta(President)的說法,在 Harvey 的 BigLaw Bench 上,Opus 4.7 在高努力程度下達到了 90.9% 的得分,並且在審查表格上有更好的推理校準,對模糊的文檔編輯任務處理得明顯更智能。

對實際開發者的意義

對於開發者來說,這些改進意味著什麼?

在複雜的、長時間運行的編碼工作流中,Opus 4.7 能夠減少摩擦。開發者可以保持「流暢」狀態,專注於構建,而不需要中斷來檢查或修正代碼。

對於使用 Claude Code 的開發者,Anthropic 引入了新的 /ultrareview 指令,這會產生一個專門的審查會話,閱讀所有更改並標記錯誤和設計問題。Pro 和 Max 用戶可以免費獲得三個 ultrareviews。

此外,Anthropic 還擴展了「auto mode」到 Max 用戶。這是一個新的權限選項,Claude 可以代表用戶做決策,這意味著你可以運行更長的任務,減少中斷,並且風險比跳過所有權限要低。

新的 Effort Level:xhigh

Opus 4.7 引入了一個新的努力等級「xhigh」(extra high),位於 high 和 max 之間。這給了用戶更精細的控制權來權衡推理和延遲。

在 Claude Code 中,Anthropic 將所有計畫的默認努力等級提高到了 xhigh。當測試 Opus 4.7 進行編碼和代理用例時,Anthropic 建議從 high 或 xhigh 努力等級開始。

從 Opus 4.6 遷移的注意事項

Opus 4.7 是 Opus 4.6 的直接升級,但有兩個變化需要規劃,因為它們會影響 token 使用。

首先,Opus 4.7 使用了一個更新的 tokenizer,改進了模型處理文本的方式。代價是相同的輸入可能會映射到更多的 token——大約是 1.0–1.35×,取決於內容類型。

其次,Opus 4.7 在更高的努力等級下思考更多,特別是在代理設置的後續回合中。這提高了它在困難問題上的可靠性,但也意味著它會產生更多的輸出 token。

用戶可以通過多種方式控制 token 使用:使用 effort 參數,調整任務預算,或者提示模型更簡潔。

在繁中環境中的實際應用

對於繁體中文環境的開發者來說,Opus 4.7 的改進意味著什麼?

首先,更高的視覺解析度支持對於需要處理繁體中文的應用場景很重要。繁體中文的字體細節、排版要求,往往比英文更複雜。Opus 4.7 的 2,576 像素長邊支持,意味著它能夠更準確地識別和理解繁體中文的螢幕截圖、界面設計和圖文資料。

其次,更強的自主性對於繁中開發者特別有價值。繁中開發環境往往需要處理更多本地化的問題——字體、編碼、地區設定、第三方服務的本地化整合。Opus 4.7 能夠更自主地處理這些複雜、多步驟的工作流,減少開發者的干預需求。

第三,對於法律和金融領域的繁中應用,Opus 4.7 在 BigLaw Bench 上的表現令人印象深刻。繁中法律文件和金融報告的處理,對準確性和細節的要求極高。Opus 4.7 在這些領域的改進,意味著繁中環境中的法律科技和金融科技應用,可以更可靠地利用 AI 進行文件分析、合同審查、數據提取等任務。

安全與對齊

在安全方面,Opus 4.7 展示了與 Opus 4.6 類似的安全配置。Anthropic 的評估顯示,在欺騙、附和和濫用合作等令人擔憂的行為方面,比率較低。

在某些方面,如誠實性和抵抗惡意「提示注入」攻擊,Opus 4.7 是對 Opus 4.6 的改進;在其他方面(如傾向於給予受控物質過於詳細的危害減少建議),Opus 4.7 略顯薄弱。

Anthropic 的對齊評估得出結論,該模型「大部分是良好對齊和可信賴的,儘管其行為並非完全理想」。值得注意的是,Mythos Preview 仍然是 Anthropic 訓練的最佳對齊模型。

網絡安全能力的謹慎處理

Anthropic 在網絡安全能力上採取了謹慎的態度。Opus 4.7 是第一個測試新的網絡安全保障措施的「較不強大」的模型。根據 Anthropic 的說法,Opus 4.7 的網絡能力不如 Mythos Preview 先進(在訓練期間,他們實驗了差異化地減少這些能力)。

Anthropic 正在發布 Opus 4.7,並配備自動檢測和阻止指示禁止或高風險網絡安全使用的請求的保障措施。從這些保障措施的現實世界部署中學到的東西,將幫助他們朝著廣泛發布 Mythos 類模型的最終目標努力。

對於希望將 Opus 4.7 用於合法網絡安全目的(如漏洞研究、滲透測試和紅隊測試)的安全專業人士,Anthropic 邀請他們加入新的 Cyber Verification Program。

定價保持不變

Opus 4.7 的定價與 Opus 4.6 相同:每百萬輸入 token 5 美元,每百萬輸出 token 25 美元。開發者可以通過 Claude API 使用 claude-opus-4-7。

這意味著開發者可以在不增加成本的情況下,獲得更高的代碼能力和視覺能力。對於已經在使用 Opus 4.6 的開發者來說,這是一個「免費」的性能提升。

早期測試者的反饋

Anthropic 的早期測試者對 Opus 4.7 給出了強烈的反饋。

來自一家金融技術平台的測試者表示:「在早期測試中,我們看到 Claude Opus 4.7 對我們的開發人員有著重大潛力的重大飛躍。它在規劃階段就能發現自己的邏輯錯誤並加速執行,遠遠超過了之前的 Claude 模型。作為一個為數百萬消費者和企業提供服務、規模相當可觀的金融科技平台,這種速度和精確度的組合可能會是遊戲規則的改變者:加速開發速度,更快地交付我們的客戶每天依賴的可信金融解決方案。」

Hex 表示:「Anthropic 已經為編碼模型樹立了標準,而 Claude Opus 4.7 以有意義的方式進一步推動了這一標準,成為市場上最先進的模型。在我們的內部評估中,它不僅在原始能力上脫穎而出,而且在處理現實世界的異步工作流程方面——自動化、CI/CD 和長時間運行的任務——表現出色。它對問題思考得更深入,並帶來了更有觀點的視角,而不是簡單地同意用戶。」

Devin 的測試者說:「Claude Opus 4.7 將長期自主性提升到了一個新的水平。它連續運作了數小時,推動了困難的問題而不是放棄,並解鎖了我們以前無法可靠運行的一類深度調查工作。」

對開發者社群的影響

Opus 4.7 的發布,對開發者社群有幾個重要的影響。

首先,它提高了「編碼 AI」的標準。Opus 4.7 不僅在基準測試上表現更好,更重要的是,它在實際工作流中的自主性和可靠性上有明顯改進。這意味著開發者可以將更複雜的任務交給 AI,而不需要密切監督。

其次,它減少了「工具錯誤」。根據多個測試者的反饋,Opus 4.7 的工具調用錯誤比 Opus 4.6 大幅減少。這對於依賴工具使用(如文件操作、網絡請求、外部 API 調用)的代理應用特別重要。

第三,它提高了「視覺理解」能力。更高的圖像解析度支持,使得 Opus 4.7 能夠更準確地處理圖像密集的任務——從讀取螢幕截圖到從複雜圖表中提取數據。

對繁中開發者的建議

對於繁中開發者,我有一些建議:

首先,如果你正在處理繁中相關的編碼任務——如字體處理、編碼轉換、地區設定、繁中界面設計——可以嘗試使用 Opus 4.7 的更高努力等級(high 或 xhigh)。這會消耗更多 token,但對於複雜的繁中任務,更高的推理能力通常值得。

其次,如果你正在使用視覺相關的功能——如讀取繁中文檔截圖、繁中界面設計評審、繁中圖文資料提取——可以利用 Opus 4.7 的更高解析度支持。但要注意,更高解析度的圖像會消耗更多 token,如果不需要額外細節,可以在發送到模型之前對圖像進行降採樣。

第三,如果你正在進行繁中法律或金融文檔的處理,可以考慮測試 Opus 4.7 在這些領域的能力。根據 Anthropic 的報告,Opus 4.7 在 BigLaw Bench 上達到了 90.9% 的得分,並且在處理模糊的文檔編輯任務時表現更智能。

如何開始使用 Opus 4.7

Opus 4.7 已經在所有 Claude 產品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry 上提供。

對於 API 用戶,可以直接使用 claude-opus-4-7 模型 ID。

對於 Claude Code 用戶,可以嘗試新的 /ultrareview 指令,並考慮將默認努力等級設置為 high 或 xhigh。

對於首次嘗試 Opus 4.7 的用戶,Anthropic 建議:
– 對於編碼和代理用例,從 high 或 xhigh 努力等級開始
– 重新調整為早期模型編寫的 prompt,因為 Opus 4.7 會更嚴格地遵守指令
– 測量遷移後的實際 token 使用情況,因為新的 tokenizer 可能會影響 token 計算

未來的展望

Opus 4.7 的發布,是 Anthropic 在代碼能力上的一次實質性跨越。但這不是終點——Anthropic 還在繼續改進。

從 Opus 4.7 發布的保障措施和網絡安全能力處理方式,可以看出 Anthropic 在謹慎地推進更強大模型的發布。Opus 4.7 是測試新網絡安全保障措施的第一個「較不強大」的模型。從這次發布中學到的經驗,將幫助 Anthropic 朝著廣泛發布更強大的 Mythos 類模型邁進。

五年後回頭看今天,我們會說什麼?是「當時太天真了」,還是「那時就該知道」?答案,由現在的決定。對於開發者來說,現在是開始測試和使用 Opus 4.7 的時候,看看這個實質性的跨越能如何改善你的工作流。