DaveC
14 hours ago
Facebook
Llama 3.3 70B, 突然把頂級版本的 LLM 變「迷你」。當然這迷你是相對的, 比如要用 NVIDIA GPU 跑, 還是有相當的花費。要在自己的機器上跑, 目前最便宜的方案大概就是用 Mac, 甚至一台 MacBook Pro 128GB RAM 還可以在自己的筆電上跑 -- 可以帶到咖啡店不連網使用!!
速度大概是比較大的缺點, 洪老師說回個 300 字的回應, 大約要 1 分多鐘。雖然這不太能成為最後需要即時的商用, 但是在開發上完全是可以的。畢竟你也很難找其他方式完全不連網使用這麼大的語言模型。
喜歡輕巧版、回覆快速的還可以用 Llama 3.2 3B 版本。那就是大概隨便一台 M 系 Mac 都可以跑的。
latest #6
DaveC
14 hours ago
Facebook在筆電上跑Llama3.3-70B-8bit
最近Meta釋出Llama3.3,據說效果頗佳,「小小」70B模型的答題正確率直逼近6倍大的Llama3.1 405B模型,低頭看著手上配備128GB記憶體的MacBook Pro (M3 Max),興起了在筆電上跑這模型的念頭。
70B參數的模型要這台筆電上有效率地跑,參數最好都載入記憶體內,BF16的版本放不下,Int8的版本可以,輸出的速度略高於5 tokens/sec,提供300字的回答(425個tokens)約需一分多鐘,當然比不上商業雲端服務,但仍算是堪用,無需擔心隱私機敏資料外洩。
DaveC
14 hours ago
如果換成最新的M4晶片,速度應該會快一些,但還是比不上Mac Studio上的M2 Ultra晶片。目前最大容量的Mac Studio組態192GB的記憶體,理當可以跑BF16的70B模型,Ultra晶片的記憶體頻寬較高,速度應約略也在5 tokens/sec上下。
獨立遊戲顯卡雖然算力更強,但記憶體容量不足,以RTX4090的24GB容量,難以支應70B模型。除非一台電腦上安裝多張遊戲顯卡,否則跑不順較大的模型。另一方面,配備更大記憶體而且可商轉用的GPU,目前的價格不菲,要口袋夠深才好買來自用。我實驗室有幾台配有多張4090的電腦,用高速網路串起來跑大模型,效果還可以。
DaveC
14 hours ago
總是有一些重視隱私、提防資料外洩的人或公司,會想在自家的電腦上跑AI模型,而且我想需求可能越來越多。可能有人認為很多資訊都已經上了雲端,還怕什麼?但或許多想一下,以前這一大堆資料誰有空來看?現在雲端業者有很多算力和儲存,雖說是用於訓練大模型,但讓AI來窺探隱私和機密倒是很方便,怕不怕老大哥(以國家安全為由)來監控和約談呢?
要做出給普羅大眾用於執行/微調大語言模型專用晶片並不難,難的是要賣得好,這一點還需要軟體與應用的流行。目前不少廠商還在觀望,但假以時日,應該會普及。
立即下載
JokerCatz
14 hours ago @Edit 14 hours ago
等明年年中的 MacStudio 再說(應該是 M4 ultra),而不是目前的 MBP 或 Mac mini,現在買都早了
Deva
14 hours ago
https://images.plurk.com/6WwDrKWEWha7C9PXMCbBxL.png

是, 推特上有人說想把上面換成 M4 Ulra Max Mac Studio
大歐派蘿莉
2 hours ago
如果前者那個速度可以,那 3.2 3B 用 Intel GPU 跑也是差不多速度,現在門檻沒那麼高了
back to top