首次超越 AR 模型：擴散語言模型的品質與速度突破

69.6 vs 43.3、45.7 vs 30.4、2.9-4.1 倍吞吐量——這些數字不是遊戲分數，而是 AI 領域一個長期以來被認為「不可能的突破」的最新證據。

長期以來，擴散語言模型（DLM）承諾透過並行 token 生成打破自回歸（AR）解碼的序列瓶頸，但實際應用中，DLM 的品質始終落後於 AR 模型。研究團隊指出，這個差距來自一個根本性的失敗：內省一致性。AR 模型同意它們生成的內容，但 DLM 經常不同意。

I-DLM（Introspective Diffusion Language Model）終於打破這個僵局，成為第一個在品質上與同規模 AR 模型相當的擴散語言模型。I-DLM-8B 在 AIME-24 上達到 69.6 分，超越了 LLaDA-2.1-mini（16B 參數）的 43.3 分；在 LiveCodeBench-v6 上達到 45.7 分，對比 LLaDA-2.1-mini 的 30.4 分——而且只用了一半的參數。

為什麼內省一致性如此重要？

研究團隊識別出當前 DLM 的三個根本性瓶頸：

第一，低內省一致性。SDAR（一種擴散方法）的內省一致性只有 0.699，而 I-DLM 達到 0.984。這意味著傳統 DLM 經常「說一套做一套」，它們的輸出分布與訓練時學習到的分布不一致。

第二，計算低效。TiDAR 方法的開銷高達約 7.8 倍，而 I-DLM 只需要約 2.5 倍。這在實際應用中是巨大的差異——更高的開銷意味著更高的成本和更慢的回應時間。

第三，基礎設施不匹配。研究團隊用「批處理效率斜率」來衡量這個問題：SDAR 的斜率只有 84，而 I-DLM 達到 549。簡單來說，當用戶請求量增加時，SDAR 的吞吐量很快就達到瓶頸，而 I-DLM 還可以持續提升。

I-DLM 如何解決這些問題？

I-DLM 的核心是「內省跨距解碼」（Introspective Strided Decoding，ISD）。這個方法在單次前向傳播中同時生成新 token 和驗證先前的 token。

具體來說，ISD 將輸入序列分成兩類位置：MASK 位置用於提議新 token（使用分布 q），乾淨位置用於驗證先前的 token（使用錨定分布 p）。接受度採用 min(1, p(x)/q(x)) 標準，這個數學保證確保輸出分布與 AR 模型完全一致。

當跨距 N=4 時，理論加速因子（TPF）達到 2.96，在記憶體受限的情境下大約可以實現 3 倍的實際加速。

研究團隊還引入了「內省一致性訓練」。這個方法將預訓練的 AR 模型轉換為 I-DLM，透過因果注意力、logit 轉移和全遮罩目標函數實現。訓練數據是 4.5B token，在 8 張 H100 GPU 上跑 2 個 epoch，使用跨距課程（先 N=2，然後 N=3）。

實際效能表現

在 15 個基準測試的評估中，I-DLM 超越了所有先前的 DLM。讓我們看幾個具體領域：

知識與推理：
– ARC-C：95.8（vs Qwen2-32B 的 97.2）
– MMLU：83.5（vs Qwen2-32B 的 87.2）
– GPQA：55.4（vs Qwen2-32B 的 65.0）

數學：
– GSM8K：96.0（vs Qwen2-32B 的 94.7）
– MATH-500：95.8（vs Qwen2-32B 的 97.8）
– AIME-24：69.6（vs Qwen2-32B 的 76.7）

程式碼：
– HumanEval：95.1（vs Qwen2-32B 的 96.3）
– MBPP：93.4（vs Qwen2-32B 的 95.8）
– LiveCodeBench-v6：45.7（vs Qwen2-32B 的 58.3）

這些數據顯示，I-DLM 不僅在數學推理等「硬核」任務上表現優異，在程式碼生成等實用任務上也達到了競爭力水準。特別是 LiveCodeBench-v6，這個基準測試評估的是模型在實際編程任務中的表現，I-DLM 的 45.7 分已經相當於 16B 參數的 LLaDA-2.1-mini。

吞吐量與並發性能

I-DLM 最引人注目的特性是在高並發情況下的吞吐量表現。與 LLaDA-2.1-mini 和 SDAR 相比，I-DLM 在 C=64（並發度 64）的情境下實現了 2.9-4.1 倍更高的吞吐量。

這意味著什麼？想像你有一個 AI 服務，同時有 64 個用戶在請求。使用 LLaDA-2.1-mini，你可能需要 1 小時來處理所有請求；使用 I-DLM，你可能只需要 15-20 分鐘。對於商業應用來說，這直接轉化為更好的用戶體驗和更低的運營成本。

研究團隊用「理論加速因子」（TPF）來量化這個加速效果。在記憶體受限的解碼情境下，TPF 大約等於實際的時鐘加速：TPF 為 2.5 意味著大約比 AR 快 2.5 倍。

為什麼 I-DLM 能在高並發下保持高效？

關鍵在於「計算效率」。研究團隊將計算效率定義為 TPF²/query_size——每個浮點運算產生多少有用的輸出（AR 的效率 = 1）。

SDAR（N=4，p=0.5）的 TPF 約為 1.1，處理 N=4 個查詢/前向傳播，計算效率 = 1.1²/4 ≈ 0.31。每個浮點運算只產生 AR 31% 的輸出。這意味著 SDAR 很快就進入計算受限狀態，其吞吐量會到達平台期（批處理效率斜率 = 84）。

I-DLM（N=4，p=0.9）的 TPF 約為 2.9，處理 2N−1=7 個查詢/前向傳播，計算效率 = 2.9²/7 ≈ 1.22。每個浮點運算產生的輸出比 AR 還多——在 SDAR 已經飽和的並發水平下，I-DLM 還保持在記憶體受限的情境（批處理效率斜率 = 549）。

效率大於 1 意味著並行解碼實際上比 AR 節省了總計算量。這就是為什麼 I-DLM 的吞吐量隨著並發度提升而增長，而 SDAR 和 LLaDA 的吞吐量則到達平台期。

實際部署：SGLang 整合

I-DLM 使用嚴格的因果注意力，這使得它可以無縫整合到 SGLang 等現有的 AR 模型服務基礎設施中，不需要自定義基礎設施。

研究團隊實現了多項優化：
– 分頁 KV 快取和連續批處理
– CUDA 圖捕獲（+42-76% 吞吐量）
– 固定批次解碼循環調度（+11-21%）
– Argmax 提案（+11-15%）
– 僅分頁注意力內核（+10-14%）

完整系統相對於原始基線實現了 2.1-2.5 倍的吞吐量提升。

無損 R-ISD

研究團隊還引入了「殘差 ISD」（Residual ISD，R-ISD），它添加了一個門控 LoRA 適配器，實現逐位無損加速。

LoRA 只在 MASK 位置啟用，驗證位置使用僅基礎權重。從構造上說，輸出與基礎 AR 模型完全相同。LoRA rank=128，開銷因子約 1.12 倍。模型名稱是 yifanyu/I-DLM-8B-lora-r128。

這意味著什麼？如果你需要絕對確保輸出與基礎 AR 模型完全一致（例如在某些關鍵應用中），你可以使用 R-ISD。它提供了並行解碼的速度優勢，同時保證了逐位相同的輸出。

模型生態與安裝

研究團隊提供了三個模型：
– I-DLM-8B：基於 Qwen3-8B 的主模型，與 AR 品質相當
– I-DLM-32B：基於 Qwen3-32B 的大規模模型，超越 LLaDA-2.1-flash（100B）
– I-DLM-8B-LoRA：基於 Qwen3-8B 的門控 LoRA（rank=128），用於無損 R-ISD

所有模型都使用 trust_remote_code=True（自定義 SDARForCausalLM 架構）。

安裝很簡單：

git clone https://github.com/Introspective-Diffusion/I-DLM.git
cd I-DLM/inference
bash install.sh

快速開始

啟動伺服器：

python -m sglang.launch_server \
 --model-path yifanyu/I-DLM-8B \
 --trust-remote-code --tp-size 1 --dtype bfloat16 \
 --mem-fraction-static 0.85 --max-running-requests 32 \
 --attention-backend flashinfer --dllm-algorithm IDLMBlockN \
 --dllm-algorithm-config inference/configs/idlm_blockN4_config.yaml \
 --port 30000

生成內容：

curl http://localhost:30000/v1/chat/completions \
 -H "Content-Type: application/json" \
 -d '{
 "model": "default",
 "messages": [{"role": "user", "content": "證明根號 2 是無理數。"}],
 "max_tokens": 4096,
 "temperature": 1.0
 }'

評估基準

研究團隊在 15 個基準測試上評估了 I-DLM，分為 4 個類別：

知識： ARC-C、MMLU、MMLU-Pro、GPQA-D、GPQA
數學： GSM8K、MATH-500、MathBench、AIME-24、AIME-25
程式碼： HumanEval、MBPP、LiveCodeBench-v6
指令遵循： IFEval

所有評估都啟用了「思考模式」。

對開發社群的意義

I-DLM 的突破對開發社群來說意義重大。長期以來，擴散模型在圖像生成領域取得了巨大成功（如 Stable Diffusion），但在語言生成領域卻始終無法突破 AR 模型的品質瓶頸。

I-DLM 的成功證明，透過正確的內省一致性設計，擴散語言模型不僅可以達到 AR 模型的品質，還可以在高並發情境下實現顯著的吞吐量提升。這意味著未來的 AI 應用可能不再需要在「品質」和「速度」之間做選擇。

對於需要處理大量並發請求的應用（如客服機器人、程式碼助手、數據分析工具），I-DLM 提供了一個新的選項。特別是在成本敏感的環境中，I-DLM 的 2.9-4.1 倍吞吐量優勢可能直接轉化為可觀的成本節省。

未來的發展方向可能包括：更大規模的模型（如 I-DLM-32B 的初步結果已經超越 100B 參數的 LLaDA-2.1-flash）、更高效的訓練方法、以及更多領域的基準測試。

I-DLM 不是擴散語言模型的終點，而是一個新的起點。它證明了一個長期被懷疑的可能性：並行 token 生成不僅可以更快，還可以更好。在 AI 發展的歷史中，這可能是另一個轉折點——從單一的 AR 架構，到多樣化的生成架構共同演化。

對於追蹤技術演化的觀察者來說，I-DLM 的出現特別有啟發性：它不是推翻 AR 模型，而是透過理解 AR 模型的優勢（內省一致性），將這些優勢整合到擴散架構中。這種「理解→整合→超越」的模式，或許是技術突破的一個更持久路徑。