Om jag har fattat saken rätt så kan en dual socket Epyc köra inferance (slutledning) av den fulla odestillerade modellen med 768GB 24-kanalig RAM. Detta för en "rimlig" kostnad. Mängden RAM är uppenbarligen nödvändig, sedan blir minnesbandbredden flaskhalsen så att CPU-prestandan blir mindre viktig.
År detta ens möjligt med en samtida Mac?
Ska man vara petnoga så kräver den "fulla" DeepSeek V3 modellen med 671B parametrar strax över 1,5 TB RAM för att köras. Vilket är möjligt på server-HW men då börjar vi komma upp en hel del pris...
Det de flesta refererar till är att fortfarande köra modellen med 671B parametrar, men med lägre precision än FP16. Den video som @Tomasis länkar använder Q4 vilket sänker RAM-kravet till ca 400 GB (systemet i videon hade 512 GB RAM).
Det finns modeller med så låg "quantize level" som Q1.4, håller på ladda ner "fulla modellen" med Q1.7 för att se om den är körbara på en laptop med 128 GB RAM... Dessa modeller är tydligen full körbara med 192 GB, så de går att köra på en enda Mac Studio.
Som man också såg i videon är det smärtsamt långsamt att köra på det systemet. En Milan Epyc har 8 kanaler DDR4-3200, så är faktiskt bara ca 200 GB/s bandbredd. Snapdragon X och Lunar Lake laptops som artikeln handlar om är inte så långt efter, de har en bandbredd på ca 135 GB/s (och Strix Point varierar lite, men ligger typiskt på 120-130 GB/s) vilket de med modeller optimerade för NPU lär kunna max:a.
En Mac Studio med M2 Ultra är betydligt snabbare än servern i videon då den har 800 GB/s i bandbredd, vilket den med GPGPU kan utnyttja fullt ut.
Så vill man köra lokalt behöver fundera på sitt use-case. Bandbredden avgör tokens/s, man behöver nog komma upp till runt ca 10 token/s för att det ska vara realistiskt att jobba interaktivt med modellen.
Sen avgör RAM hur stor modellen kan vara. Att minska antalet parameters gör att modellen har mindre kunskap. Att minska antalet bitar man lagrar vikterna med påverkar saker som träffsäkerhet och hur varierade svar den kan ge. Ofta förloras väldigt lite när man går från FP16->Q8 (eller strax under).
Q4 kommer påverka, men fungerar ofta hyfsat.
Generellt sett uppför sig en modell med lägre Q-nivå men med alla parametrar kvar mer likt original-modellen än "distilled" modeller med högre Q-nivå fast om-tränad/konverterad till färre parameters.
För produkter som Copilot+ laptops och liknande behöver man nog smalna av fokus lite då modellen kommer få långt färre parameters. Ett vettig use-case är t.ex. de "distilled" modeller av DeepSeek som fokuserar på programmering, där kan man få rimlig hastighet och bra träffsäkerhet givet HW-begränsningarna.
Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer