「我已經用 Claude Code 做了六個月的項目,這幾天突然變成白癡了。」
這條抱怨出現在 GitHub issue #42796 下方的數百條評論中。從 3 月 8 日開始,使用 Claude Code 的開發者發現,原本能夠處理複雜工程任務的 AI 助手,能力突然斷崖式下跌。
更令人擔憂的是,這次能力下降不是單純的技術問題,而是與 Anthropic 在 3 月中旬開始的「思維遮蔽」政策直接相關。
時間軸:從強大到遮蔽
根據開發者在 GitHub issue 中的追蹤數據,這次事件有清晰的時間線:
1 月 30 日 – 2 月 8 日(基準期)
Claude Code 的思維深度中位數約為 2,200 個字符。這段時期,開發者普遍對 Claude Code 在複雜重構、多文件修改、架構設計等任務上的表現給予高度評價。
2 月底
思維深度中位數降至約 720 個字符,較基準期下降 67%。這是在遮蔽正式開始之前,能力已經開始顯著下滑。
3 月 1-5 日
進一步降至約 560 個字符,下降幅度達到 75%。這個階段,許多開發者開始在論壇上反饋 Claude Code 變「笨」了。
3 月 8 日
Anthropic 開始實施思維遮蔽(thinking redaction),用戶無法再看到 Claude 的內部推理過程。
3 月 12 日之後
全面遮蔽生效。雖然思維字符數略微回升到約 600 個字符,但這是因為遮蔽後的統計方式改變,實際思維深度仍維持在下降 73% 的水平。
4 月 7 日
這篇 GitHub issue 已累積 709 個 upvote 和 446 則評論,成為 Anthropic 倉庫中最熱門的討論之一。
值得注意的是,遮蔽政策的推出採用了分階段部署模式:1.5% → 25% → 58% → 100%,在一週內逐步擴展。這種常見的軟體部署策略本意是為了降低風險,但在此事件中,卻讓問題在每個階段都浮現出來。
「觸發器」問題:173 次誤判
開發者報告中最具體的問題,是一個名為「觸發器」(trigger)的安全機制。根據 GitHub issue 中的數據,這個機制在 3 月 8 日之後的 17 天內被觸發了 173 次。
什麼是觸發器?當 Claude Code 在處理代碼時,如果檢測到可能涉及敏感操作、潛在安全風險或超出允許範圍的任務,就會觸發這個機制。觸發後,AI 會拒絕執行或大幅縮減回應內容。
問題在於,這個觸發器變得過於敏感。開發者反映,一些完全正常的工程任務也會被誤判為「不安全」:
- 重構一個大型專案的模組結構
- 一次性修改多個文件中的 API 調用
- 分析第三方依賴庫的安全性
- 編寫複雜的單元測試
這些都是日常開發中再平常不過的工作,但在新的觸發器規則下,Claude Code 會頻繁拒絕執行,或者只給出模糊的建議而無法實際完成任務。
一位開發者在評論中寫道:「我原本用 Claude Code 來做一次性的大規模重構,它能理解整個專案的上下文,給出精確的修改建議。現在它卻連簡單的函數提取都做不好,總是說『這可能會影響系統穩定性,請手動檢查』。」
遮蔽的後果:看不見的推理
思維遮蔽(thinking redaction)的初衷是出於安全考慮。AI 的內部推理過程可能包含敏感資訊、未驗證的假設,甚至是可能被濫用的知識。Anthropic 決定遮蔽這些過程,用戶只能看到最終的輸出結果。
但在實際應用中,這帶來了兩個嚴重問題。
第一,失去了調試和優化的依據。
當 Claude Code 給出錯誤或不符合預期的建議時,開發者原本可以查看它的思維過程,理解它是如何得出結論的,從而修正輸入或提供更清晰的上下文。現在,這個管道被切斷了。開發者只能看到結果,無法知道為什麼會是這個結果。
第二,思維深度的下降可能與遮蔽直接相關。
雖然遮蔽政策在 3 月 8 日才全面生效,但思維深度從 2 月底就已經開始下降。這暗示 Anthropic 可能在遮蔽之前就已經在調整模型行為,為遮蔽做準備。而在遮蔽正式實施後,思維深度沒有恢復,反而持續維持在低位。
一位曾在 Anthropic 工作過的前員工在 HackerNews 上匿名評論:「思維遮蔽不是簡單的『把推理過程藏起來』。為了確保遮蔽後的輸出仍然安全可靠,模型可能被重新訓練或調整,這會影響它的推理能力。」
開發者的反應:從信任到失望
這次事件對 Anthropic 在開發者社群中的聲譽造成了嚴重打擊。
Claude Code 自發布以來,一直是許多工程師的首選 AI 編程工具。原因很簡單:它比其他工具更能理解複雜的工程上下文,在處理大型專案時表現更出色。
一位全職開發者在 issue 中分享了他的經歷:「我本來在用 Claude Code 重構一個十年歷史的 legacy codebase。它能理解那些混亂的模組依賴,給出清晰的遷移路徑。但在 3 月中旬,它突然變得保守起來,總是建議我『逐個文件處理』。」
另一位開發者則表示:「我理解安全的重要性,但不能為了安全而犧牲工具的核心價值。如果 Claude Code 不能處理複雜任務,那它和普通的代碼補全工具有什麼區別?」
在 HackerNews 上,一篇關於「Anthropic 燃燒開發者善意」的貼文引發了廣泛討論。開發者們普遍認為,Anthropic 在沒有充分溝通的情況下改變產品行為,是對用戶的不尊重。
企業用戶的兩難
對於企業用戶來說,這次事件帶來了更實際的問題。
許多公司已經將 Claude Code 整合到開發流程中,用於代碼審查、自動化測試生成、技術文檔撰寫等任務。這些整合不是一夜之間完成的,往往經過了數週或數月的評估和調整。
現在,面對 Claude Code 能力的突然下降,企業需要做出決定:
- 繼續使用,接受效能下降,重新調整工作流程以避開那些已經做不好的任務。
- 切換到其他工具,但這意味著重新整合、重新培訓團隊,甚至需要重新評估已經積累的上下文資料。
- 暫停使用 AI 輔助,回歸純人工開發,這在當前的人才市場和競爭環境下顯然不現實。
一位技術主管在評論中寫道:「我們花了三個月時間把 Claude Code 整合到 CI/CD 流程中。現在它變笨了,我該怎麼跟老闆解釋?告訴他我們需要再花三個月切換到另一個工具?」
技術層面的反思
從技術角度來看,這次事件暴露了幾個關鍵問題。
第一,安全與能力的平衡。
AI 安全是必須重視的議題,但如何在確保安全的同時不過度限制能力,是一個難題。過度敏感的觸發器、過度保守的行為規則,都可能讓工具失去實際價值。
第二,透明度的重要性。
如果 Anthropic 在進行重大調整之前,能夠提前告知用戶,說明調整的原因和可能影響,開發者社群的反應會完全不同。透明度不僅是尊重用戶的表現,也能讓用戶做好準備,提前調整工作流程。
第三,持續監控和快速回應。
從 2 月底思維深度開始下降,到 3 月中旬遮蔽正式生效,中間有超過兩週的時間。如果 Anthropic 有更完善的監控機制,能夠在問題初期就發現並採取措施,或許能避免這次事件惡化。
觀察家視角:工具的演化與使用者的期待
這次 Claude Code 事件,本質上是 AI 工具演化過程中的一個典型縮影。任何一個顛覆性技術在從「實驗室玩具」走向「生產力工具」的過程中,都會經歷類似的調整期。
開發者們的不滿來源於一個錯位:他們已經把 Claude Code 視為「值得信賴的工程師伙伴」,但對於 Anthropic 來說,它仍然是一個「需要持續調整的實驗性產品」。
這種錯位不是單一公司的問題。OpenAI 的 GPT 系列在更新過程中也曾多次引發用戶抱怨;GitHub Copilot 在推出新功能時同樣面臨過能力波動的質疑。問題不在於「調整是否合理」,而在於「調整如何傳達」。
當一個工具承諾解決複雜問題,然後在沒有預警的情況下突然變得無力,用戶感到的失望是完全可以理解的。特別是當這個工具已經融入日常工作流程,承擔了關鍵任務時,能力下降帶來的影響不是「不順手」,而是「無法完成工作」。
這給了所有 AI 工具開發者一個啟示:當你的產品開始承載用戶的生產力期望時,每一次調整都不再是單純的技術決策,而是對用戶信任的試煉。
開發者可以做的三件事
如果你也是 Claude Code 的用戶,正在面對這次調整帶來的困擾,這裡有一些實際的建議:
1. 評估你的使用場景
想想你最常用 Claude Code 做的事情。如果是簡單的代碼生成、函數補全,目前的版本可能仍然足夠。但如果你需要它處理大型重構、複雜架構設計,那可能需要暫時尋找其他解決方案,或者調整預期,把複雜任務拆解成更小的步驟。
2. 備份你的上下文資料
Claude Code 的一大優勢是能夠記住專案的長期上下文。如果你有積累的重要上下文資料(專案結構、編碼規範、常用模式等),現在是時候把它們備份出來,整理成可以被其他工具理解的文檔。這樣即使未來需要切換工具,也不會失去這些珍貴的知識。
3. 保持關注,但不急於決定
AI 工具的演化速度很快,今天的問題可能下個月就有改善。現在做出倉促的決定(例如立刻切換到另一個工具),可能會帶來更大的整合成本。觀察 Anthropic 的回應、社群的解決方案,給自己和工具一些時間。
這會是 AI 工具的「Windows Vista」時刻嗎?
軟體歷史上有一個著名的案例:Windows Vista。微軟在 Vista 中加入了大量的安全機制,但這些機制過於嚴格,導致使用者體驗大幅下降,成為 Windows 歷史上最失敗的版本之一。
Claude Code 這次的思維遮蔽和觸發器強化,讓許多開發者想起了 Vista 時代的經驗。過度的安全限制,最終讓工具失去了核心價值。
但與 Vista 不同的是,AI 工具有快速迭代的能力。Anthropic 可以根據用戶反饋,在幾天或幾週內調整模型行為,而不是像傳統軟體那樣需要等待下一個大版本的發布。
關鍵在於,Anthropic 是否聽到了這次事件的訊號,以及他們如何回應。是繼續堅持遮蔽政策,相信安全的重要性優先於能力?還是找到一個更好的平衡點,讓安全與能力並存?
這不僅關係到 Claude Code 的未來,也將成為整個 AI 工具行業的一個重要參考案例。
參考資料與結尾觀察
這篇文章的資料主要來自 GitHub issue #42796、HackerNews 討論串以及開發者在社群平台上的分享。所有具體數據(如思維字符數下降百分比、觸發器觸發次數)都直接引用自這些來源,未進行任何推測或估算。
值得注意的是,這次事件的主角不是一個普通的 AI 聊天機器人,而是一個深度整合到開發工作流程的生產力工具。這使得問題的性質完全不同——當 ChatGPT 偶爾回答不準確,你會笑一笑然後問下一個問題;但當 Claude Code 突然做不好重構,你的專案進度可能就會被拖慢一週。
這提醒我們,對於 AI 工具的評估不應該停留在「演示效果好不好看」,而應該更關注「生產力承諾是否持續穩定」。一個在 Demo 中驚艷的 AI,如果不能在長期使用中保持穩定,它的價值就會大打折扣。
或許,我們需要開始用評估傳統軟體的那套標準來評估 AI 工具:不僅看功能是否強大,還要看更新是否穩定、溝通是否透明、問題處理是否快速。AI 不應該是一個「黑魔法」,它應該是一個可預期、可依賴的工程工具。
這次事件,或許會成為 AI 工具從「實驗室玩具」走向「成熟產品」的重要轉折點。無論結果如何,它都提醒了我們:技術的進步很重要,但如何讓技術真正服務於用戶,更值得深思。