69.6 vs 43.3、45.7 vs 30.4、2.9-4.1 倍吞吐量——這些數字不是遊戲分數,而是 AI 領域一個長期以來被認為「不可能的突破」的最新證據。
長期以來,擴散語言模型(DLM)承諾透過並行 token 生成打破自回歸(AR)解碼的序列瓶頸,但實際應用中,DLM 的品質始終落後於 AR 模型。研究團隊指出,這個差距來自一個根本性的失敗:內省一致性。AR 模型同意它們生成的內容,但 DLM 經常不同意。
I-DLM(Introspective Diffusion Language Model)終於打破這個僵局,成為第一個在品質上與同規模 AR 模型相當的擴散語言模型。I-DLM-8B 在 AIME-24 上達到 69.6 分,超越了 LLaDA-2.1-mini(16B 參數)的 43.3 分;在 LiveCodeBench-v6 上達到 45.7 分,對比 LLaDA-2.1-mini 的 30.4 分——而且只用了一半的參數。
為什麼內省一致性如此重要?
研究團隊識別出當前 DLM 的三個根本性瓶頸:
第一,低內省一致性。SDAR(一種擴散方法)的內省一致性只有 0.699,而 I-DLM 達到 0.984。這意味著傳統 DLM 經常「說一套做一套」,它們的輸出分布與訓練時學習到的分布不一致。
第二,計算低效。TiDAR 方法的開銷高達約 7.8 倍,而 I-DLM 只需要約 2.5 倍。這在實際應用中是巨大的差異——更高的開銷意味著更高的成本和更慢的回應時間。
第三,基礎設施不匹配。研究團隊用「批處理效率斜率」來衡量這個問題:SDAR 的斜率只有 84,而 I-DLM 達到 549。簡單來說,當用戶請求量增加時,SDAR 的吞吐量很快就達到瓶頸,而 I-DLM 還可以持續提升。
I-DLM 如何解決這些問題?
I-DLM 的核心是「內省跨距解碼」(Introspective Strided Decoding,ISD)。這個方法在單次前向傳播中同時生成新 token 和驗證先前的 token。
具體來說,ISD 將輸入序列分成兩類位置:MASK 位置用於提議新 token(使用分布 q),乾淨位置用於驗證先前的 token(使用錨定分布 p)。接受度採用 min(1, p(x)/q(x)) 標準,這個數學保證確保輸出分布與 AR 模型完全一致。
當跨距 N=4 時,理論加速因子(TPF)達到 2.96,在記憶體受限的情境下大約可以實現 3 倍的實際加速。
研究團隊還引入了「內省一致性訓練」。這個方法將預訓練的 AR 模型轉換為 I-DLM,透過因果注意力、logit 轉移和全遮罩目標函數實現。訓練數據是 4.5B token,在 8 張 H100 GPU 上跑 2 個 epoch,使用跨距課程(先 N=2,然後 N=3)。
實際效能表現
在 15 個基準測試的評估中,I-DLM 超越了所有先前的 DLM。讓我們看幾個具體領域:
知識與推理:
– ARC-C:95.8(vs Qwen2-32B 的 97.2)
– MMLU:83.5(vs Qwen2-32B 的 87.2)
– GPQA:55.4(vs Qwen2-32B 的 65.0)
數學:
– GSM8K:96.0(vs Qwen2-32B 的 94.7)
– MATH-500:95.8(vs Qwen2-32B 的 97.8)
– AIME-24:69.6(vs Qwen2-32B 的 76.7)
程式碼:
– HumanEval:95.1(vs Qwen2-32B 的 96.3)
– MBPP:93.4(vs Qwen2-32B 的 95.8)
– LiveCodeBench-v6:45.7(vs Qwen2-32B 的 58.3)
這些數據顯示,I-DLM 不僅在數學推理等「硬核」任務上表現優異,在程式碼生成等實用任務上也達到了競爭力水準。特別是 LiveCodeBench-v6,這個基準測試評估的是模型在實際編程任務中的表現,I-DLM 的 45.7 分已經相當於 16B 參數的 LLaDA-2.1-mini。
吞吐量與並發性能
I-DLM 最引人注目的特性是在高並發情況下的吞吐量表現。與 LLaDA-2.1-mini 和 SDAR 相比,I-DLM 在 C=64(並發度 64)的情境下實現了 2.9-4.1 倍更高的吞吐量。
這意味著什麼?想像你有一個 AI 服務,同時有 64 個用戶在請求。使用 LLaDA-2.1-mini,你可能需要 1 小時來處理所有請求;使用 I-DLM,你可能只需要 15-20 分鐘。對於商業應用來說,這直接轉化為更好的用戶體驗和更低的運營成本。
研究團隊用「理論加速因子」(TPF)來量化這個加速效果。在記憶體受限的解碼情境下,TPF 大約等於實際的時鐘加速:TPF 為 2.5 意味著大約比 AR 快 2.5 倍。
為什麼 I-DLM 能在高並發下保持高效?
關鍵在於「計算效率」。研究團隊將計算效率定義為 TPF²/query_size——每個浮點運算產生多少有用的輸出(AR 的效率 = 1)。
SDAR(N=4,p=0.5)的 TPF 約為 1.1,處理 N=4 個查詢/前向傳播,計算效率 = 1.1²/4 ≈ 0.31。每個浮點運算只產生 AR 31% 的輸出。這意味著 SDAR 很快就進入計算受限狀態,其吞吐量會到達平台期(批處理效率斜率 = 84)。
I-DLM(N=4,p=0.9)的 TPF 約為 2.9,處理 2N−1=7 個查詢/前向傳播,計算效率 = 2.9²/7 ≈ 1.22。每個浮點運算產生的輸出比 AR 還多——在 SDAR 已經飽和的並發水平下,I-DLM 還保持在記憶體受限的情境(批處理效率斜率 = 549)。
效率大於 1 意味著並行解碼實際上比 AR 節省了總計算量。這就是為什麼 I-DLM 的吞吐量隨著並發度提升而增長,而 SDAR 和 LLaDA 的吞吐量則到達平台期。
實際部署:SGLang 整合
I-DLM 使用嚴格的因果注意力,這使得它可以無縫整合到 SGLang 等現有的 AR 模型服務基礎設施中,不需要自定義基礎設施。
研究團隊實現了多項優化:
– 分頁 KV 快取和連續批處理
– CUDA 圖捕獲(+42-76% 吞吐量)
– 固定批次解碼循環調度(+11-21%)
– Argmax 提案(+11-15%)
– 僅分頁注意力內核(+10-14%)
完整系統相對於原始基線實現了 2.1-2.5 倍的吞吐量提升。
無損 R-ISD
研究團隊還引入了「殘差 ISD」(Residual ISD,R-ISD),它添加了一個門控 LoRA 適配器,實現逐位無損加速。
LoRA 只在 MASK 位置啟用,驗證位置使用僅基礎權重。從構造上說,輸出與基礎 AR 模型完全相同。LoRA rank=128,開銷因子約 1.12 倍。模型名稱是 yifanyu/I-DLM-8B-lora-r128。
這意味著什麼?如果你需要絕對確保輸出與基礎 AR 模型完全一致(例如在某些關鍵應用中),你可以使用 R-ISD。它提供了並行解碼的速度優勢,同時保證了逐位相同的輸出。
模型生態與安裝
研究團隊提供了三個模型:
– I-DLM-8B:基於 Qwen3-8B 的主模型,與 AR 品質相當
– I-DLM-32B:基於 Qwen3-32B 的大規模模型,超越 LLaDA-2.1-flash(100B)
– I-DLM-8B-LoRA:基於 Qwen3-8B 的門控 LoRA(rank=128),用於無損 R-ISD
所有模型都使用 trust_remote_code=True(自定義 SDARForCausalLM 架構)。
安裝很簡單:
git clone https://github.com/Introspective-Diffusion/I-DLM.git
cd I-DLM/inference
bash install.sh
快速開始
啟動伺服器:
python -m sglang.launch_server \
--model-path yifanyu/I-DLM-8B \
--trust-remote-code --tp-size 1 --dtype bfloat16 \
--mem-fraction-static 0.85 --max-running-requests 32 \
--attention-backend flashinfer --dllm-algorithm IDLMBlockN \
--dllm-algorithm-config inference/configs/idlm_blockN4_config.yaml \
--port 30000
生成內容:
curl http://localhost:30000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "default",
"messages": [{"role": "user", "content": "證明根號 2 是無理數。"}],
"max_tokens": 4096,
"temperature": 1.0
}'
評估基準
研究團隊在 15 個基準測試上評估了 I-DLM,分為 4 個類別:
知識: ARC-C、MMLU、MMLU-Pro、GPQA-D、GPQA
數學: GSM8K、MATH-500、MathBench、AIME-24、AIME-25
程式碼: HumanEval、MBPP、LiveCodeBench-v6
指令遵循: IFEval
所有評估都啟用了「思考模式」。
對開發社群的意義
I-DLM 的突破對開發社群來說意義重大。長期以來,擴散模型在圖像生成領域取得了巨大成功(如 Stable Diffusion),但在語言生成領域卻始終無法突破 AR 模型的品質瓶頸。
I-DLM 的成功證明,透過正確的內省一致性設計,擴散語言模型不僅可以達到 AR 模型的品質,還可以在高並發情境下實現顯著的吞吐量提升。這意味著未來的 AI 應用可能不再需要在「品質」和「速度」之間做選擇。
對於需要處理大量並發請求的應用(如客服機器人、程式碼助手、數據分析工具),I-DLM 提供了一個新的選項。特別是在成本敏感的環境中,I-DLM 的 2.9-4.1 倍吞吐量優勢可能直接轉化為可觀的成本節省。
未來的發展方向可能包括:更大規模的模型(如 I-DLM-32B 的初步結果已經超越 100B 參數的 LLaDA-2.1-flash)、更高效的訓練方法、以及更多領域的基準測試。
I-DLM 不是擴散語言模型的終點,而是一個新的起點。它證明了一個長期被懷疑的可能性:並行 token 生成不僅可以更快,還可以更好。在 AI 發展的歷史中,這可能是另一個轉折點——從單一的 AR 架構,到多樣化的生成架構共同演化。
對於追蹤技術演化的觀察者來說,I-DLM 的出現特別有啟發性:它不是推翻 AR 模型,而是透過理解 AR 模型的優勢(內省一致性),將這些優勢整合到擴散架構中。這種「理解→整合→超越」的模式,或許是技術突破的一個更持久路徑。