Login
Sign Up For Free
English
中文 (繁體)
中文 (香港)
中文 (简体)
日本語
Filipino
Bahasa Indonesia
Bahasa Melayu
Pусский
Português (Brasil)
Magyar
Français
Español
Deutsch
Čeština
العربية
Català
Dansk
Ελληνικά
فارسی
Suomi
Gaeilge
Hindi
עברית
Hrvatski
Italiano
Norsk bokmål
Nederlands
한국어
Polski
Română
Slovenský
Svenska
Türkçe
українська
беларуская
ไทย
Standard view
伊軍領袖
1 months ago
【GPU是大型AI運算架構中最脆弱環節,自動化偵測與故障排除技術是確保維運關鍵】超大規模AI運算設施的維...
使用大量GPU執行模型訓練作業,也會衝擊資料中心電網。數以萬計的GPU,很可能會同時增加或減少功耗,例如一同等待檢查點寫入或集體通訊作業完成、或訓練作業的啟動與關閉等,Meta表示,當這種情況出現,將導致整個資料中心的功耗,瞬間出現數十MW等級的波動,以致超出電網限制。
latest #10
想睡覺的廢柴海星
1 months ago
GPU太吃電了....
伊軍領袖
1 months ago
就是為了通用性,印象中好像已經有廠商有做特別給 Transformer模型用的晶片,耗電跟速度都比現在GPU好,但是如果突然有廠商發表個更新的架構但是不相容Transformer,那就會變成硬體投資全打了水飄
rîch1ïû
1 months ago
一定會這樣,可能要想辦法加上100MW的儲電設施在伺服器機房旁邊
要不然就要搞分散式機房
立即下載
伊軍領袖
1 months ago
richliu
:
@titain on Plurk
Oracle都蓋核電廠了
rîch1ïû
1 months ago
核電還是會碰到這種 peak 值的問題,這應該算是進階電網題?
xCatG
1 months ago
@Edit 1 months ago
新的專用晶片廠商不少,像GroQ號稱他們的晶片只要GPU的1%電量,但不能拿來做training只能拿來inference
xCatG
1 months ago
光這樣就已經讓它們的waitlist排到2027了 XD
xCatG
1 months ago
當然也跟他們排不到晶片生產產能有關... 之前默默無聞五年,突然要大量tape out只能等一年
伊軍領袖
1 months ago
通用跟專用的差別......
lordmi
1 months ago
抢电、圈地、对赌,深聊科技巨头的千亿美元AI能源大战 【硅谷101】_哔哩哔哩_bilibili
back to top
delete
reply
edit
cancel
cancel