Meta PO的一份研究報告顯示,其用於訓練 4050 億參數模型 Llama 3 的 16384 個英偉達 H100 顯卡集群在 54 天內出現了 419 次意外故障,平均每三小時就有一次。其中,一半以上的故障是由顯卡或其搭載的高帶寬記憶體(HBM3)引起的。
由於繫統規模巨大且任務高度同步,單個顯卡故障可能導致整個訓練任務中斷,需要重新開始。盡管如此,Meta 團隊還是保持了 90% 以上的有效訓練時間。
IT之家註意到,在為期 54 天的預預訓練中,共出現了 466 次工作中斷,其中 47 次是計劃中斷,419 次是意外中斷。計劃內的中斷是由於自動化維護造成的,而意外的中斷則主要源於硬體問題。GPU 問題是導致故障的主要原因,佔意外中斷的 58.7%。其中只有三起事件需要大量人工幹預,其余的由自動化管理。
在 419 個意外中斷中,148 個(30.1%)是由各種 GPU 故障(包括 NVLink 故障)引起的,而 72 個(17.2%)是由 GPU 的 HBM3 記憶體故障引起的。有趣的是,54 天內只有兩個 CPU 發生故障。41.3% 的意外中斷是由多種因素造成的,包括軟體錯誤、網路電纜和網路適配器。
為提高效率,Meta 團隊開發了一繫列工具和優化策略,包括縮短任務啟動和檢查點時間、利用 PyTorch 的 NCCL 飛行記錄器診斷性能問題、識別拖後顯卡等。此外,Meta 還關註到了環境因素的影響,如午間溫度波動對 GPU 性能的輕微影響,以及巨量 GPU 同時運行對數據中心電網的巨大壓力。
然而,隨著人工智慧模型參數量的不斷增加,所需的計算資源也隨之擴大。以 xAI 計劃中的 10 萬塊 H100 顯卡集群為例,故障率可能會成倍增長,給未來的 AI 訓練帶來更大的挑戰。
資訊來源:IT之家。如有侵權,請聯繫我們刪除。
全新M.CBD國際商務中心火熱招商中歡迎來電預約參觀
參觀時間:週一~週五 9:00AM~19:00PM(新店) 9:00AM~18:00PM(內湖)
歡迎電洽:02-22199566(新店) 02-26585500(內湖)
新店地址:新店民權路108號10樓
內湖地址:內湖區陽光街321巷8號3樓
M.CBD商務中心專頁
FB粉絲專頁
民權路上租個人工作室2219-9566/北新路租商務中心/北新路上租個人工作室/大坪林捷運站租商務中心/
新店區租商務中心/新北市租商務中心2219-9566/新北市個人工作室/新北市在台辦事處/新店個人工作室/
新店在台辦事處/十四張捷運商務中心2219-9566/十四張捷運站租個人工作室/十四張捷運租在台辦事處/
租商務中心/租個人工作室/租在台辦事處2219-9566/稀有小坪數辦公室/出租商務中心/出租微型辦公室/
出租個人工作室/民權路出租商務中心/民權路上出租商務辦公室2219-9566/出租大坪林捷運站微型辦公室/
出租大坪林捷運站個人工作室/出租民權路小坪數辦公室/出租北新路小坪數辦公室/出租商務中心/
出租微型辦公室/出租個人工作室/出租M.CBD國際商務中心/
|