深度學習是 AI 領域最強大的技術,但它為什么有效,其實沒人真正說得清楚。

當你問 ChatGPT 一個問題,背後有數千億個參數在數毫秒內被激活。這些參數之間如何協作、為什麼訓練後就能泛化到沒看過的資料、為什麼更大的模型突然湧現出新能力——這些問題至今沒有統一的科學解釋。

「我們仍然在靠反覆試錯的方法訓練神經網路,理論在深度學習的日常實踐中幾乎沒有角色。」

這不是某個懷疑論者的抱怨,而是 UC Berkeley、哈佛、史丹佛、Flatiron Institute 等頂尖機構 15 位研究者聯合發表的一篇 41 頁論文的開場白。這篇《There Will Be a Scientific Theory of Deep Learning》不只描繪了困境,更提出了一個大膽的主張:深度學習的科學理論正在成形,而它應該被理解為一種「力學」(mechanics)——就像牛頓力學描述物體運動一樣,用數學定律來描述神經網路的學習過程。

為什麼深度學習需要一套「科學理論」?

古典理論的局限性

深度學習理論的歷史可以追溯到上世紀中葉的 McCulloch-Pitts 神經元和感知機(Perceptron)。早期的理論問題很單純:簡單的模型能表示什麼函數?如何從數據中學習?

這個時期誕生了古典學習理論,包括統計學習理論和 PAC 學習理論,配合古典優化理論,為簡單學習系統提供了從訓練到泛化的完整保證。

但深度學習的崛起——多層網路、反向傳播、規模不斷擴大——暴露了古典理論的根本局限。

神經網路是複雜的、非凸的(nonconvex)、過參數化的(overparameterized),而古典學習理論恰恰擅長分析簡單、凸優化、參數精簡的模型。事實上,神經網路的訓練和泛化表現遠超過古典理論所能保證或解釋的範圍。

更重要的是,神經網路不只是「擬合數據」或「達到低訓練誤差」,它們在訓練過程中學習到結構化的內部表徵(internal representations),並且在不同任務和規模之間展現出驚人的規律性。

從數學到科學的轉向

這標誌著深度學習理論的一次根本轉型:從「研究什麼是數學上可能的」,變成「努力描述、解釋並最終預測複雜經驗系統行為的科學努力」。

論文作者群比喻說:「新的科學事業通常始於一個經驗上的張力——自然界呈現出某些有趣但我們無法用現有工具預測或解釋的現象。雖然神經網路是人造的計算系統,但這種科學張力在這裡同樣存在。」

五條證據:科學理論正在成形

論文的核心貢獻,是將當前分散在各地的研究整合成五條相互支撐的證據線。每一條都指向同一個結論:我們正在接近一套統一的深度學習理論。

1. 可解的理想化模型

物理學從來不會直接研究真實世界的全部複雜性。牛頓力學從質點開始,統計力學從理想氣體開始。深度學習理論也走同樣的路。

研究者已經建立了一批數學上可以完整求解的簡化設定,其中最著名的是深層線性網路(deep linear networks)核方法(kernel methods)。在這些設定中,學習過程的每一個細節——參數如何演化、損失函數如何下降——都可以用簡單的數學精確描述。

雖然這些模型比真實的神經網路簡單得多,但它們提供了一個至關重要的功能:直覺。就像理想氣體模型讓我們理解真實氣體的行為,這些可解模型讓我們理解真實神經網路的關鍵定性特徵。

2. 可處理的極限

物理學的第二個慣用技巧是取極限:當某些參數趨向無窮大或趨向零時,系統的行為變得可以分析。

在深度學習中,兩個極限特別有用:

這些極限提供了一個「顯微鏡」,讓我們看到在有限規模時被雜訊遮蔽的基礎現象。

3. 簡單的數學定律

當物理學家研究複雜系統時,他們往往不追蹤每個粒子的運動,而是關注「宏觀可觀測量」——比如溫度、壓力、體積之間的關係。

深度學習領域也發現了類似的簡單定律:

這些宏觀定律就像理想氣體方程 PV = nRT 之於氣體動力論:它們非常有用,即使我們不完全理解微觀機制的所有細節。

4. 超參數的理論

深度學習實踐中最頭痛的問題之一,就是超參數(hyperparameters)的選擇:學習率該設多少?動量(momentum)參數是多少?權重衰減(weight decay)的係數是什麼?

傳統上,這些是「黑魔法」——靠經驗和試錯來摸索。

但論文指出,越來越多的超參數其實可以從理論上理解,從而與訓練過程的其餘部分「解耦」:

當這些超參數被逐一解耦和理論化後,留下來的就是一個更簡單、更容易分析的動力系統。這正是物理學中「參數化」方法的經典應用——就像區分特徵尺度、耦合常數一樣。

5. 跨系統的普遍行為

物理學中最令人興奮的發現,往往是同一個現象出現在完全不同的系統中——比如臨界現象在磁鐵、液體和量子系統中表現出同樣的標度行為。

深度學習也出現了類似的普遍性:

這些普遍行為暗示,深度學習的核心現象可能不依賴於具體的模型架構或數據類型,而是某種更深的、類似於物理學中「相變」和「臨界現象」的機制。

「學習力學」:一個新的科學框架

將上述五條證據結合起來,論文提議將這套新興理論命名為「學習力學」(Learning Mechanics)

為什麼是「力學」而不是別的?

在物理學中,力學(mechanics)研究的是力如何作用於物體,決定其隨時間和空間的運動。論文作者群認為,神經網路的學習過程也可以用完全相同的方式來理解:

「雖然我們研究的系統非常不同,但核心問題本質上都是關於運動和交互作用,因此我們可以預期產生的科學共享某些特徵。」

更具體地說,學習力學與機械可解釋性(Mechanistic Interpretability)之間應該形成共生關係。論文中的一個比喻特別精彩:

「如果機械可解釋性是深度學習的生物學——試圖詳細理解各個組件如何運作——那麼學習力學就是它的物理學——尋找支配整體行為的普遍定律。就像在自然科學中生物學和物理學的角色是互補的一樣,在這裡它們也應該是相輔相成的。」

學習力學的方法論特徵

論文總結了學習力學研究方法的三個核心特徵:

  1. 關注訓練過程的動力學(dynamics of the training process)——不僅關心最終結果,更關心參數在時間中如何演化。

  2. 主要描述粗略的匯總統計量(coarse aggregate statistics)——不追蹤每個參數的細節,而是關注宏觀的集體行為。

  3. 強調可證偽的量化預測(falsifiable quantitative predictions)——真正的科學理論必須能做出可檢驗的預測,而不只是對已知現象的事後解釋。

這些特徵讓學習力學有別於傳統的統計學習理論和資訊理論視角——後者往往提供「最壞情況」(worst-case)的保證,而學習力學追求的是「平均情況」(average-case)的準確描述。

常見的反對意見與回應

論文也沒有迴避對於「深度學習理論是否可能」的常見懷疑,並逐一回應:

「神經網路太複雜了,不可能有簡單理論」

回應:物理學研究的對象從銀河系到夸克,從流體到量子,都不簡單。物理學的威力恰恰在於它找到了在特定尺度上有用的簡化描述。牛頓力學不描述分子運動,但它對宏觀物體的運動給出了精確的預測。

同樣的,學習力學不需要描述神經網路的每一個細節——它只需要在「宏觀可觀測量」的層面上給出準確的描述和預測。

「理論沒有用,實踐才是王道」

回應:在深度學習的早期階段,理論確實落後於實踐。但正如化學先於量子化學,工程先於材料科學一樣,理論的發展最終會回饋給實踐。更深入地理解學習過程,可以幫助我們設計更好的架構、選擇更有效的超參數、預測更大模型的行為。

事實上,神經縮放定律已經在指導工業界的決策——OpenAI、Google、Anthropic 都使用縮放定律來預測模型性能並分配計算資源。

「理論永遠無法解釋湧現行為」

回應:湧現行為(emergent behavior)本身就是一個科學問題。物理學中的超導、相變、湍流都是經典的湧現現象,而物理學不僅成功描述了它們,還發展出了完整的理論。學習力學的方法——「關注粗略的匯總統計量」——恰恰是研究湧現行為的理想工具。

對台灣 AI 社群的啟示

學術研究的新方向

對於正在或計劃投入 AI 研究的台灣學術界,學習力學提供了一個值得關注的新領域。目前參與這條研究線的主要是北美頂尖機構,但這個領域仍然高度開放——許多核心問題還沒有答案。

台灣的數學和物理研究傳統深厚,而學習力學恰恰需要紮實的數學功底——動力系統、統計物理、隨機過程。對於有物理或數學背景、正在考慮轉向 AI 的研究者來說,學習力學可能是一個值得投入的方向。

實務開發者的視角

對於正在使用 LLM API 或部署模型的開發者來說,學習力學的發展意味著兩件事:

首先是更好的預測能力。 縮放定律已經在幫助企業決定訓練多大的模型、需要多少數據。隨著學習力學的成熟,我們可能能夠更準確地預測某個架構或訓練策略的效果,減少盲目試錯的成本。

其次是更好的超參數選擇。 如果超參數可以被理論化地理解和解耦,那麼「黑魔法」式的調參將逐漸被系統性的方法取代。對於資源有限的新創團隊來說,這意味著可以用更少的實驗次數達到更好的結果。

一個值得關注的開放社群

論文作者群建立了一個網站 learningmechanics.pub,上面整理了入門資料、開放問題和社群討論。對於想深入理解學習力學的人來說,這是一個很好的起點。

未來方向:學習力學還沒有回答的問題

論文在結尾處列出了幾個重要的開放方向:

論文給了初學者一個非常務實的建議:不要一頭扎進最複雜的問題。先從可解模型開始,練習用數學語言描述學習動力學,然後逐步增加現實的複雜度。就像學習經典力學從質點開始一樣,學習力學也需要從基礎做起。

這篇 41 頁的論文並沒有提供一個「最終答案」。它真正提出的,是一個問題的方法論轉向:不要問「深度學習為什麼有效」,而是問「我們能用什麼樣的科學框架來描述它?」

學習力學或許就是那個框架。它不追求對每個細節的完美解釋——像物理學一樣,它滿足於在適當的尺度上做出有用的預測。而如果歷史有任何參考價值,一個好的科學框架最終會比「反覆試錯」走得更遠。

對於台灣的 AI 開發者和研究者來說,這是一個值得保持關注的領域。不是每個人都需要深入學習力學的數學細節,但理解這個框架的存在——知道「黑盒子正在被撬開」——本身就是對 AI 未來方向的一個重要視角。

當「學習力學」真正成熟的那一天,它可能會像熱力學改變工程學、量子力學改變材料科學一樣,深刻地改變我們設計和訓練神經網路的方式。而這個故事,我們才剛開始讀第一章。