伊軍領袖
1 months ago
【GPU是大型AI運算架構中最脆弱環節,自動化偵測與故障排除技術是確保維運關鍵】超大規模AI運算設施的維...使用大量GPU執行模型訓練作業,也會衝擊資料中心電網。數以萬計的GPU,很可能會同時增加或減少功耗,例如一同等待檢查點寫入或集體通訊作業完成、或訓練作業的啟動與關閉等,Meta表示,當這種情況出現,將導致整個資料中心的功耗,瞬間出現數十MW等級的波動,以致超出電網限制。
latest #10
GPU太吃電了....
伊軍領袖
1 months ago
就是為了通用性,印象中好像已經有廠商有做特別給 Transformer模型用的晶片,耗電跟速度都比現在GPU好,但是如果突然有廠商發表個更新的架構但是不相容Transformer,那就會變成硬體投資全打了水飄
rîch1ïû
1 months ago
一定會這樣,可能要想辦法加上100MW的儲電設施在伺服器機房旁邊
要不然就要搞分散式機房
立即下載
伊軍領袖
1 months ago
richliu:@titain on PlurkOracle都蓋核電廠了
rîch1ïû
1 months ago
核電還是會碰到這種 peak 值的問題,這應該算是進階電網題?
xCatG
1 months ago @Edit 1 months ago
新的專用晶片廠商不少,像GroQ號稱他們的晶片只要GPU的1%電量,但不能拿來做training只能拿來inference
xCatG
1 months ago
光這樣就已經讓它們的waitlist排到2027了 XD
xCatG
1 months ago
當然也跟他們排不到晶片生產產能有關... 之前默默無聞五年,突然要大量tape out只能等一年
伊軍領袖
1 months ago
通用跟專用的差別......
back to top