DaveC FacebookLlama 3.3 70B, 突然把頂級版本的 LLM 變「迷你」。當然這迷你是相對的, 比如要用 NVIDIA GPU 跑, 還是有相當的花費。要在自己的機器上跑, 目前最便宜的方案 - #3gntc002es

14 hours ago

Facebook
Llama 3.3 70B, 突然把頂級版本的 LLM 變「迷你」。當然這迷你是相對的, 比如要用 NVIDIA GPU 跑, 還是有相當的花費。要在自己的機器上跑, 目前最便宜的方案大概就是用 Mac, 甚至一台 MacBook Pro 128GB RAM 還可以在自己的筆電上跑 -- 可以帶到咖啡店不連網使用!!
速度大概是比較大的缺點, 洪老師說回個 300 字的回應, 大約要 1 分多鐘。雖然這不太能成為最後需要即時的商用, 但是在開發上完全是可以的。畢竟你也很難找其他方式完全不連網使用這麼大的語言模型。
喜歡輕巧版、回覆快速的還可以用 Llama 3.2 3B 版本。那就是大概隨便一台 M 系 Mac 都可以跑的。

latest #6

DaveC

14 hours ago

Facebook在筆電上跑Llama3.3-70B-8bit
最近Meta釋出Llama3.3，據說效果頗佳，「小小」70B模型的答題正確率直逼近6倍大的Llama3.1 405B模型，低頭看著手上配備128GB記憶體的MacBook Pro (M3 Max），興起了在筆電上跑這模型的念頭。
70B參數的模型要這台筆電上有效率地跑，參數最好都載入記憶體內，BF16的版本放不下，Int8的版本可以，輸出的速度略高於5 tokens/sec，提供300字的回答（425個tokens）約需一分多鐘，當然比不上商業雲端服務，但仍算是堪用，無需擔心隱私機敏資料外洩。

DaveC

14 hours ago

如果換成最新的M4晶片，速度應該會快一些，但還是比不上Mac Studio上的M2 Ultra晶片。目前最大容量的Mac Studio組態192GB的記憶體，理當可以跑BF16的70B模型，Ultra晶片的記憶體頻寬較高，速度應約略也在5 tokens/sec上下。
獨立遊戲顯卡雖然算力更強，但記憶體容量不足，以RTX4090的24GB容量，難以支應70B模型。除非一台電腦上安裝多張遊戲顯卡，否則跑不順較大的模型。另一方面，配備更大記憶體而且可商轉用的GPU，目前的價格不菲，要口袋夠深才好買來自用。我實驗室有幾台配有多張4090的電腦，用高速網路串起來跑大模型，效果還可以。

DaveC

14 hours ago

總是有一些重視隱私、提防資料外洩的人或公司，會想在自家的電腦上跑AI模型，而且我想需求可能越來越多。可能有人認為很多資訊都已經上了雲端，還怕什麼？但或許多想一下，以前這一大堆資料誰有空來看？現在雲端業者有很多算力和儲存，雖說是用於訓練大模型，但讓AI來窺探隱私和機密倒是很方便，怕不怕老大哥（以國家安全為由）來監控和約談呢？
要做出給普羅大眾用於執行/微調大語言模型專用晶片並不難，難的是要賣得好，這一點還需要軟體與應用的流行。目前不少廠商還在觀望，但假以時日，應該會普及。

立即下載

JokerCatz

14 hours ago @Edit 14 hours ago

等明年年中的 MacStudio 再說（應該是 M4 ultra），而不是目前的 MBP 或 Mac mini，現在買都早了

Deva

14 hours ago

https://images.plurk.com/6WwDrKWEWha7C9PXMCbBxL.png

是, 推特上有人說想把上面換成 M4 Ulra Max Mac Studio

大歐派蘿莉

2 hours ago

如果前者那個速度可以，那 3.2 3B 用 Intel GPU 跑也是差不多速度，現在門檻沒那麼高了