深度學習是 AI 領域最強大的技術,但它為什么有效,其實沒人真正說得清楚。
當你問 ChatGPT 一個問題,背後有數千億個參數在數毫秒內被激活。這些參數之間如何協作、為什麼訓練後就能泛化到沒看過的資料、為什麼更大的模型突然湧現出新能力——這些問題至今沒有統一的科學解釋。
「我們仍然在靠反覆試錯的方法訓練神經網路,理論在深度學習的日常實踐中幾乎沒有角色。」
這不是某個懷疑論者的抱怨,而是 UC Berkeley、哈佛、史丹佛、Flatiron Institute 等頂尖機構 15 位研究者聯合發表的一篇 41 頁論文的開場白。這篇《There Will Be a Scientific Theory of Deep Learning》不只描繪了困境,更提出了一個大膽的主張:深度學習的科學理論正在成形,而它應該被理解為一種「力學」(mechanics)——就像牛頓力學描述物體運動一樣,用數學定律來描述神經網路的學習過程。
為什麼深度學習需要一套「科學理論」?
古典理論的局限性
深度學習理論的歷史可以追溯到上世紀中葉的 McCulloch-Pitts 神經元和感知機(Perceptron)。早期的理論問題很單純:簡單的模型能表示什麼函數?如何從數據中學習?
這個時期誕生了古典學習理論,包括統計學習理論和 PAC 學習理論,配合古典優化理論,為簡單學習系統提供了從訓練到泛化的完整保證。
但深度學習的崛起——多層網路、反向傳播、規模不斷擴大——暴露了古典理論的根本局限。
神經網路是複雜的、非凸的(nonconvex)、過參數化的(overparameterized),而古典學習理論恰恰擅長分析簡單、凸優化、參數精簡的模型。事實上,神經網路的訓練和泛化表現遠超過古典理論所能保證或解釋的範圍。
更重要的是,神經網路不只是「擬合數據」或「達到低訓練誤差」,它們在訓練過程中學習到結構化的內部表徵(internal representations),並且在不同任務和規模之間展現出驚人的規律性。
從數學到科學的轉向
這標誌著深度學習理論的一次根本轉型:從「研究什麼是數學上可能的」,變成「努力描述、解釋並最終預測複雜經驗系統行為的科學努力」。
論文作者群比喻說:「新的科學事業通常始於一個經驗上的張力——自然界呈現出某些有趣但我們無法用現有工具預測或解釋的現象。雖然神經網路是人造的計算系統,但這種科學張力在這裡同樣存在。」
五條證據:科學理論正在成形
論文的核心貢獻,是將當前分散在各地的研究整合成五條相互支撐的證據線。每一條都指向同一個結論:我們正在接近一套統一的深度學習理論。
1. 可解的理想化模型
物理學從來不會直接研究真實世界的全部複雜性。牛頓力學從質點開始,統計力學從理想氣體開始。深度學習理論也走同樣的路。
研究者已經建立了一批數學上可以完整求解的簡化設定,其中最著名的是深層線性網路(deep linear networks)和核方法(kernel methods)。在這些設定中,學習過程的每一個細節——參數如何演化、損失函數如何下降——都可以用簡單的數學精確描述。
雖然這些模型比真實的神經網路簡單得多,但它們提供了一個至關重要的功能:直覺。就像理想氣體模型讓我們理解真實氣體的行為,這些可解模型讓我們理解真實神經網路的關鍵定性特徵。
2. 可處理的極限
物理學的第二個慣用技巧是取極限:當某些參數趨向無窮大或趨向零時,系統的行為變得可以分析。
在深度學習中,兩個極限特別有用:
-
無限寬度極限:當隱藏層的神經元數量趨向無窮大時,神經網路在訓練過程中的行為可以用高斯過程(Gaussian process)或神經正切核(Neural Tangent Kernel, NTK)精確描述。這個極限揭示了一個深刻的洞見:在寬度極限下,神經網路的訓練實際上等價於一個線性模型在重構特徵空間中的學習。
-
無限深度極限:最近的研究也在探索當層數趨向無窮大時的行為,發現深度本身可以作為一種有效的正則化機制。
這些極限提供了一個「顯微鏡」,讓我們看到在有限規模時被雜訊遮蔽的基礎現象。
3. 簡單的數學定律
當物理學家研究複雜系統時,他們往往不追蹤每個粒子的運動,而是關注「宏觀可觀測量」——比如溫度、壓力、體積之間的關係。
深度學習領域也發現了類似的簡單定律:
-
神經縮放定律(Neural Scaling Laws):模型的測試性能與模型大小、數據量和計算量之間呈現冪律關係(power law relationship)。這是最著名的例子——DeepMind 和 OpenAI 的研究都顯示,只要遵循某些簡單公式,就能相當準確地預測更大模型的行為。
-
損失景觀的銳度(Loss Landscape Sharpness):近年來的研究發現,訓練後的損失景觀(loss landscape)的幾何性質——特別是局部最小值的「銳度」——與泛化性能之間存在強相關。平坦的最小值通常對應更好的泛化。
-
神經元的統計特性:研究發現,訓練完成後的神經網路的權重分布、激活值的統計特性,往往服從某些簡單的分布,這些分布可以從第一性原理推導出來。
這些宏觀定律就像理想氣體方程 PV = nRT 之於氣體動力論:它們非常有用,即使我們不完全理解微觀機制的所有細節。
4. 超參數的理論
深度學習實踐中最頭痛的問題之一,就是超參數(hyperparameters)的選擇:學習率該設多少?動量(momentum)參數是多少?權重衰減(weight decay)的係數是什麼?
傳統上,這些是「黑魔法」——靠經驗和試錯來摸索。
但論文指出,越來越多的超參數其實可以從理論上理解,從而與訓練過程的其餘部分「解耦」:
-
學習率和動量:從連續時間動力系統(continuous-time dynamical system)的角度,學習率和動量本質上控制了參數更新的「慣性」和「阻尼」。Shallue 等人 2019 年的工作系統性地展示了學習率、批次大小和訓練步數之間的相互關係。
-
權重衰減:可以解釋為對參數引入一個向原點拉回的彈性力,相當於在損失函數中加入 L2 正則化項。這個看似簡單的理解,實際上揭示了一個深刻的性質:權重衰減不僅防止過擬合,還改變了訓練動力學的本質——它引入了穩定的固定點。
-
批次大小:更大的批次給出更精確的梯度估計,但也會降低隨機性提供的正則化效應。理論分析顯示,存在一個最優的批次大小範圍。
當這些超參數被逐一解耦和理論化後,留下來的就是一個更簡單、更容易分析的動力系統。這正是物理學中「參數化」方法的經典應用——就像區分特徵尺度、耦合常數一樣。
5. 跨系統的普遍行為
物理學中最令人興奮的發現,往往是同一個現象出現在完全不同的系統中——比如臨界現象在磁鐵、液體和量子系統中表現出同樣的標度行為。
深度學習也出現了類似的普遍性:
-
神經縮放定律的普遍性:不同架構(Transformer、ResNet、MLP-Mixer)、不同領域(語言模型、圖像模型、強化學習)都展現出驚人相似的縮放行為。
-
頓悟現象(Groking):某些模型在訓練過程中的某個時刻突然「頓悟」——驗證準確率突然從隨機水準跳到近乎完美。這個現象已經在多個獨立設定中復現。
-
雙重下降現象(Double Descent):隨著模型大小增加,測試錯誤率先下降、然後上升、再下降的「雙重下降」曲線,在多種架構和數據集上都被觀察到。
-
線性表徵假說(Linear Representation Hypothesis):在不同模型和不同資料集中,訓練後的中間層表徵往往展現出相似的線性幾何結構。
這些普遍行為暗示,深度學習的核心現象可能不依賴於具體的模型架構或數據類型,而是某種更深的、類似於物理學中「相變」和「臨界現象」的機制。
「學習力學」:一個新的科學框架
將上述五條證據結合起來,論文提議將這套新興理論命名為「學習力學」(Learning Mechanics)。
為什麼是「力學」而不是別的?
在物理學中,力學(mechanics)研究的是力如何作用於物體,決定其隨時間和空間的運動。論文作者群認為,神經網路的學習過程也可以用完全相同的方式來理解:
- 在物理中,力來自於系統組件之間的交互作用。在深度學習中,學習過程由參數、數據集、任務和學習規則之間的交互作用塑造。
- 在物理中,力由場(fields)傳遞。在深度學習中,它們由梯度(gradients)傳遞。
- 在物理中,系統趨向於勢能(potential)的局部最小值。在深度學習中,神經網路收斂到損失景觀的局部最小值。
「雖然我們研究的系統非常不同,但核心問題本質上都是關於運動和交互作用,因此我們可以預期產生的科學共享某些特徵。」
更具體地說,學習力學與機械可解釋性(Mechanistic Interpretability)之間應該形成共生關係。論文中的一個比喻特別精彩:
「如果機械可解釋性是深度學習的生物學——試圖詳細理解各個組件如何運作——那麼學習力學就是它的物理學——尋找支配整體行為的普遍定律。就像在自然科學中生物學和物理學的角色是互補的一樣,在這裡它們也應該是相輔相成的。」
學習力學的方法論特徵
論文總結了學習力學研究方法的三個核心特徵:
-
關注訓練過程的動力學(dynamics of the training process)——不僅關心最終結果,更關心參數在時間中如何演化。
-
主要描述粗略的匯總統計量(coarse aggregate statistics)——不追蹤每個參數的細節,而是關注宏觀的集體行為。
-
強調可證偽的量化預測(falsifiable quantitative predictions)——真正的科學理論必須能做出可檢驗的預測,而不只是對已知現象的事後解釋。
這些特徵讓學習力學有別於傳統的統計學習理論和資訊理論視角——後者往往提供「最壞情況」(worst-case)的保證,而學習力學追求的是「平均情況」(average-case)的準確描述。
常見的反對意見與回應
論文也沒有迴避對於「深度學習理論是否可能」的常見懷疑,並逐一回應:
「神經網路太複雜了,不可能有簡單理論」
回應:物理學研究的對象從銀河系到夸克,從流體到量子,都不簡單。物理學的威力恰恰在於它找到了在特定尺度上有用的簡化描述。牛頓力學不描述分子運動,但它對宏觀物體的運動給出了精確的預測。
同樣的,學習力學不需要描述神經網路的每一個細節——它只需要在「宏觀可觀測量」的層面上給出準確的描述和預測。
「理論沒有用,實踐才是王道」
回應:在深度學習的早期階段,理論確實落後於實踐。但正如化學先於量子化學,工程先於材料科學一樣,理論的發展最終會回饋給實踐。更深入地理解學習過程,可以幫助我們設計更好的架構、選擇更有效的超參數、預測更大模型的行為。
事實上,神經縮放定律已經在指導工業界的決策——OpenAI、Google、Anthropic 都使用縮放定律來預測模型性能並分配計算資源。
「理論永遠無法解釋湧現行為」
回應:湧現行為(emergent behavior)本身就是一個科學問題。物理學中的超導、相變、湍流都是經典的湧現現象,而物理學不僅成功描述了它們,還發展出了完整的理論。學習力學的方法——「關注粗略的匯總統計量」——恰恰是研究湧現行為的理想工具。
對台灣 AI 社群的啟示
學術研究的新方向
對於正在或計劃投入 AI 研究的台灣學術界,學習力學提供了一個值得關注的新領域。目前參與這條研究線的主要是北美頂尖機構,但這個領域仍然高度開放——許多核心問題還沒有答案。
台灣的數學和物理研究傳統深厚,而學習力學恰恰需要紮實的數學功底——動力系統、統計物理、隨機過程。對於有物理或數學背景、正在考慮轉向 AI 的研究者來說,學習力學可能是一個值得投入的方向。
實務開發者的視角
對於正在使用 LLM API 或部署模型的開發者來說,學習力學的發展意味著兩件事:
首先是更好的預測能力。 縮放定律已經在幫助企業決定訓練多大的模型、需要多少數據。隨著學習力學的成熟,我們可能能夠更準確地預測某個架構或訓練策略的效果,減少盲目試錯的成本。
其次是更好的超參數選擇。 如果超參數可以被理論化地理解和解耦,那麼「黑魔法」式的調參將逐漸被系統性的方法取代。對於資源有限的新創團隊來說,這意味著可以用更少的實驗次數達到更好的結果。
一個值得關注的開放社群
論文作者群建立了一個網站 learningmechanics.pub,上面整理了入門資料、開放問題和社群討論。對於想深入理解學習力學的人來說,這是一個很好的起點。
未來方向:學習力學還沒有回答的問題
論文在結尾處列出了幾個重要的開放方向:
-
從現象到第一性原理:目前發現的許多規律性仍然是經驗性的。真正的挑戰是從第一性原理推導出這些定律——就像熱力學定律最終從統計力學推導出來一樣。
-
超越監督學習:目前學習力學的研究主要集中在監督學習設定上。強化學習、生成式模型、自監督學習等設定的理論還處於早期階段。
-
與機械可解釋性的橋接:學習力學提供的「宏觀視角」和機械可解釋性提供的「微觀視角」如何互相校準和驗證,是一個重要的開放問題。
-
實際工具化:如何將學習力學的洞見轉化為開發者可以實際使用的工具——比如更智能的超參數調優器、更可靠的訓練監控系統?
論文給了初學者一個非常務實的建議:不要一頭扎進最複雜的問題。先從可解模型開始,練習用數學語言描述學習動力學,然後逐步增加現實的複雜度。就像學習經典力學從質點開始一樣,學習力學也需要從基礎做起。
這篇 41 頁的論文並沒有提供一個「最終答案」。它真正提出的,是一個問題的方法論轉向:不要問「深度學習為什麼有效」,而是問「我們能用什麼樣的科學框架來描述它?」
學習力學或許就是那個框架。它不追求對每個細節的完美解釋——像物理學一樣,它滿足於在適當的尺度上做出有用的預測。而如果歷史有任何參考價值,一個好的科學框架最終會比「反覆試錯」走得更遠。
對於台灣的 AI 開發者和研究者來說,這是一個值得保持關注的領域。不是每個人都需要深入學習力學的數學細節,但理解這個框架的存在——知道「黑盒子正在被撬開」——本身就是對 AI 未來方向的一個重要視角。
當「學習力學」真正成熟的那一天,它可能會像熱力學改變工程學、量子力學改變材料科學一樣,深刻地改變我們設計和訓練神經網路的方式。而這個故事,我們才剛開始讀第一章。