FacebookLlama 3.3 70B, 突然把頂級版本的 LLM 變「迷你」。當然這迷你是相對的, 比如要用 NVIDIA GPU 跑, 還是有相當的花費。要在自己的機器上跑, 目前最便宜的方案大概就是用 Mac, 甚至一台 MacBook Pro 128GB RAM 還可以在自己的筆電上跑 -- 可以帶到咖啡店不連網使用!!
速度大概是比較大的缺點, 洪老師說回個 300 字的回應, 大約要 1 分多鐘。雖然這不太能成為最後需要即時的商用, 但是在開發上完全是可以的。畢竟你也很難找其他方式完全不連網使用這麼大的語言模型。
喜歡輕巧版、回覆快速的還可以用 Llama 3.2 3B 版本。那就是大概隨便一台 M 系 Mac 都可以跑的。