4TB 語音樣本遭竊，4 萬名 AI 標註員個資外洩：你的聲音已經不再是密碼

你有沒有想過，這幾年用來解鎖銀行帳戶的那句「我的聲音就是我的密碼」，可能已經不再是你的專屬鑰匙？

2026 年 4 月 4 日，知名勒索組織 Lapsus$ 在暗網上發布了一個驚人的洩漏檔案——大約 4TB 的資料，來自 AI 訓練資料平台 Mercor。這份資料涵蓋超過 4 萬名承包商，他們原本的工作是為 AI 模型標註數據、錄製朗讀片段，以及完成驗證通話。但現在，這些「訓練資料」成為了網路犯罪者的武器庫。

十天之內，五件集體訴訟接連提起。原告指控 Mercor 在收集語音樣本時，完全沒有告知這些錄音實際上等同於永久性的生物特徵辨識資料。然而對於那些聲音已經被盜走的人來說，還有一個更迫切的問題：攻擊者拿到一個人 30 秒的乾淨語音加上身分證掃描，到底能做些什麼？

這次洩漏為什麼不一樣

過去十年的語音洩漏事件，大多可以歸類為兩種。第一種是客服中心被入侵，通話錄音被盜，但很難將錄音與特定個人的身分資訊對應起來。第二種是身分文件仲介商洩漏了駕照和自拍照，卻沒有任何音訊檔案。

Mercor 的洩漏同時踩中了這兩個坑。

這家公司的承包商入職流程是這樣的：先要求你上傳護照或駕照掃描，然後用網路攝影機拍一張自拍照，最後在一個安靜的房間裡朗讀指定的文稿，錄製一段語音。這三段資料——身分證件、臉部照片、乾淨語音——就這樣被放在同一個資料庫的同一列裡。

根據《華爾街日報》2026 年 2 月的報導，目前市面上的高品質語音複製工具，只需要大約 15 秒 的乾淨參考音訊就能完成複製。而 Mercor 的錄音平均長度是 2 到 5 分鐘——遠遠超過了這個門檻。把語音複製品加上已驗證的身分證件，攻擊者同時擁有了「複製的聲音」和「用來證明身分的憑證」，可以做的事情遠比你想像的更多。

攻擊者能用你的聲音做什麼

以下不是科幻小說，每一種都是已經在真實世界出現過的攻擊手法。

銀行驗證繞過

美國和英國的幾家銀行仍然將語音辨識視為雙因子驗證中的一個因素。如果攻擊者用帳戶持有人的複製聲音讀出驗證短語，語音閘門就會被打開。剩下的問題往往只是一個知識驗證問題——而這類資訊常常就來自同一個洩漏資料集。

假冒員工致電雇主

攻擊者可以冒充員工打電話給人資或財務部門，要求更改薪資入帳帳戶、申請匯款、或是解鎖工作電腦。根據 Krebs on Security 的資料庫，自 2023 年以來已經有超過 24 起確認的相關案例。

Deepfake 視訊詐騙

2024 年，香港 Arup 集團的一名財務人員在接獲一通多人 deepfake 視訊電話後，匯出了大約 2,500 萬美元。當時攻擊者使用的是公開的影像和語音素材。而 Mercor 洩漏的資料比公開素材更好——錄音室品質的音訊加上已驗證的身分證件，這讓這類攻擊變得更容易實現。

保險理賠詐騙

資安公司 Pindrop 的數據顯示，2025 年針對保險客服中心的合成語音攻擊數量 年增 475%。汽車險、壽險和傷殘險的理賠是主要目標，因為這些理賠通常透過電話處理。

針對年長者的詐騙

FBI 網路犯罪投訴中心（IC3）的數據顯示，2026 年全美 60 歲以上受害者的網路詐騙損失總額達到 23 億美元。其中成長最快的類別是「緊急冒充電話」——用合成語音冒充親人處於危險中，要求家屬立即匯款。

為什麼 Mercor 洩漏特別值得關注

你可能會想：語音資料被盜又不是第一次發生，為什麼這次特別嚴重？

關鍵就在於「組合」。過去語音洩漏只有聲音，身分證洩漏只有文件，臉部資料洩漏只有照片。但 Mercor 的資料庫把這三樣東西綁在一起——同一個人的語音、身分證、和自拍照。這就像給了攻擊者一把鑰匙、地址和密碼，一次到齊。

更令人擔憂的是，這些語音是在「安靜的房間」裡錄製的，沒有背景噪音，沒有雜音。對語音複製模型來說，這是最理想的訓練素材。一般人在公開場合的語音錄音可能充滿環境雜音，但 Mercor 的錄音是錄音室等級的乾淨——這意味著複製出來的語音品質會非常高。

你的聲音已經被盜了嗎？五個立即行動

如果你曾經在 Mercor 或其他類似的 AI 訓練資料平台上傳過語音樣本，你的聲音現在需要像被洩漏的密碼一樣對待。你不能更改它，但你可以改變它能解鎖的東西。

1. 自我檢查公開的音訊足跡

搜尋 YouTube、Podcast 目錄、甚至舊的 Zoom 錄影，看看你還有哪些聲音樣本在公開網路上。能刪的就刪，能下架的就下架。公開的參考音訊越少，攻擊者複製出來的品質就越差。

2. 設定一個「語音通關密語」

跟家人和財務聯絡人約定一個從來沒有在任何錄音中說過、也從來沒有在聊天軟體中打過的詞組。如果任何人打電話要求匯款或轉帳，這個通關密語必須先對上。

3. 重新註冊你的語音辨識

Google Voice Match、Amazon Alexa Voice ID、Apple 個人聲音，以及任何銀行的語音辨識功能，都可以刪除後重新註冊。建議現在就做，而且最好用一個全新的錄音環境來錄製——不要跟在洩漏樣本中同樣的房間裡錄。

4. 要求銀行關閉語音驗證

寫信要求你的銀行關閉語音作為驗證因子，改用 App 驗證碼或硬體金鑰結合知識問題的多因子驗證方式。很多銀行允許你關閉語音驗證，但很少會主動告訴你。

5. 可疑錄音送交檢測

如果你收到一段音訊檔案或語音留言，聲稱是某人傳來的但要求金錢或緊急行動，先送給 deepfake 檢測工具檢查再行動。市場上已經有幾家服務提供這樣的檢測。

專家怎麼辨識合成語音

對法醫分析師來說，合成語音即使聽起來很逼真，還是有一些難以完美複製的破綻：

編解碼不匹配：音訊聲稱來自電話通話，但頻譜特徵不符合任何已知的電話編解碼
呼吸模式異常：真人會在句法邊界處自然地換氣，合成語音常常跳過呼吸，或在錯誤的音節邊界插入呼吸聲
微顫抖缺失：自然聲帶振動有細微的不規則，生成音訊在毫秒級別上往往過於乾淨
母音過渡異常：真實口腔中的母音變化遵循物理軌跡，複製語音有時會出現不可能的母音捷徑
空間聲學不一致：檔案開頭的殘響應該與結尾一致，合成語音往往乾燥而拼接段落卻有殘響
語調平坦：合成語音的語調變化和能量變化幅度通常比真人小
語速穩定度異常：真實人類會根據內容自然加快或放慢，合成語音則傾向於保持穩定的節奏

這些聽起來很技術，但重點很簡單：合成語音再怎麼逼真，還是有破綻。問題在於一般的銀行行員、保險客服、或你的家人，不會有時間和工具去做這些檢測。

更大的問題：生物特徵正在成為新的攻擊面

Mercor 事件不是單一事件，而是一個系統性問題的縮影。過去十年，我們把生物特徵當作「終極安全方案」——指紋、臉部辨識、語音辨識，都被包裝成比密碼更安全的選項。但我們忽略了一個根本問題：密碼被盜可以改，生物特徵被盜了怎麼辦？

你不能換一張臉。你不能換一個聲音。但銀行、保險公司、政府機關，卻還在把這些不可更換的生物特徵當作主要的驗證方式。

2025 年，Pindrop 回報合成語音攻擊年增 475%，這個數字不是巧合。當 AI 複製聲音的成本趨近於零，而錄音資料的洩漏越來越多，語音辨識作為安全因子只會越來越不可靠。

對台灣讀者的提醒

雖然 Mercor 的主要承包商以歐美地區為主，但這個事件對台灣讀者有幾個直接的啟示：

第一，你的銀行是不是還在用語音辨識？ 台灣的幾家大型銀行確實逐步導入語音客服和語音辨識功能，現在是時候仔細檢查你的銀行有沒有預設開啟語音驗證，有的話就去關掉。

第二，你在網路上留下的聲音。 你有沒有在 Clubhouse、Podcast、YouTube 影片、或任何公開場合留下過長達數分鐘的乾淨聲音？這些都是攻擊者可以取得的素材。

第三，親友間的「語音詐騙」防護網。 在台灣，年長者被詐騙的問題一直很嚴重。如果合成語音冒充子女的技術變得普及，那些傳統的「聲音是真的所以是本人」的信任機制就會完全失效。現在跟家人建立一個通關密語機制，可能比任何防毒軟體都有效。

這篇文章寫到這裡，我突然想到一個畫面：我們就像站在岸邊，看著海浪一波波打過來。知道無法阻止它，只能學會如何與它共存。Mercor 洩漏只是這波浪潮中的一個浪頭，但它的警示意義很清楚——生物特徵的時代已經結束了，不是因為技術不好，而是因為我們把它們當成了「終極防線」，卻忘了它們也是最難更換的東西。

或許真正該問的不是「我的聲音被盜了怎麼辦」，而是「為什麼我們會把不可更換的東西當作安全系統的基石？」

這個問題，比任何技術漏洞都更深。