Microsoft släpper Deepseek-modeller som kör på datorn

Ska man vara petnoga så kräver den "fulla" DeepSeek V3 modellen med 671B parametrar strax över 1,5 TB RAM för att köras. Vilket är möjligt på server-HW men då börjar vi komma upp en hel del pris...

Det de flesta refererar till är att fortfarande köra modellen med 671B parametrar, men med lägre precision än FP16. Den video som @Tomasis länkar använder Q4 vilket sänker RAM-kravet till ca 400 GB (systemet i videon hade 512 GB RAM).

Det finns modeller med så låg "quantize level" som Q1.4, håller på ladda ner "fulla modellen" med Q1.7 för att se om den är körbara på en laptop med 128 GB RAM... Dessa modeller är tydligen full körbara med 192 GB, så de går att köra på en enda Mac Studio.

Som man också såg i videon är det smärtsamt långsamt att köra på det systemet. En Milan Epyc har 8 kanaler DDR4-3200, så är faktiskt bara ca 200 GB/s bandbredd. Snapdragon X och Lunar Lake laptops som artikeln handlar om är inte så långt efter, de har en bandbredd på ca 135 GB/s (och Strix Point varierar lite, men ligger typiskt på 120-130 GB/s) vilket de med modeller optimerade för NPU lär kunna max:a.

En Mac Studio med M2 Ultra är betydligt snabbare än servern i videon då den har 800 GB/s i bandbredd, vilket den med GPGPU kan utnyttja fullt ut.

Så vill man köra lokalt behöver fundera på sitt use-case. Bandbredden avgör tokens/s, man behöver nog komma upp till runt ca 10 token/s för att det ska vara realistiskt att jobba interaktivt med modellen.

Sen avgör RAM hur stor modellen kan vara. Att minska antalet parameters gör att modellen har mindre kunskap. Att minska antalet bitar man lagrar vikterna med påverkar saker som träffsäkerhet och hur varierade svar den kan ge. Ofta förloras väldigt lite när man går från FP16->Q8 (eller strax under).

Q4 kommer påverka, men fungerar ofta hyfsat.

Generellt sett uppför sig en modell med lägre Q-nivå men med alla parametrar kvar mer likt original-modellen än "distilled" modeller med högre Q-nivå fast om-tränad/konverterad till färre parameters.

För produkter som Copilot+ laptops och liknande behöver man nog smalna av fokus lite då modellen kommer få långt färre parameters. Ett vettig use-case är t.ex. de "distilled" modeller av DeepSeek som fokuserar på programmering, där kan man få rimlig hastighet och bra träffsäkerhet givet HW-begränsningarna.

Senast redigerat 2025-02-02 20:39

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Citera flera Citera (4)

2025-02-02 22:24

snorleffe

Medlem

Plats: Sollentuna
Registrerad: Mar 2003

●

Skrivet av Yoshman:

Ska man vara petnoga så kräver den "fulla" DeepSeek V3 modellen med 671B parametrar strax över 1,5 TB RAM för att köras. Vilket är möjligt på server-HW men då börjar vi komma upp en hel del pris...

Det de flesta refererar till är att fortfarande köra modellen med 671B parametrar, men med lägre precision än FP16. Den video som @Tomasis länkar använder Q4 vilket sänker RAM-kravet till ca 400 GB (systemet i videon hade 512 GB RAM).

Det finns modeller med så låg "quantize level" som Q1.4, håller på ladda ner "fulla modellen" med Q1.7 för att se om den är körbara på en laptop med 128 GB RAM... Dessa modeller är tydligen full körbara med 192 GB, så de går att köra på en enda Mac Studio.

Som man också såg i videon är det smärtsamt långsamt att köra på det systemet. En Milan Epyc har 8 kanaler DDR4-3200, så är faktiskt bara ca 200 GB/s bandbredd. Snapdragon X och Lunar Lake laptops som artikeln handlar om är inte så långt efter, de har en bandbredd på ca 135 GB/s (och Strix Point varierar lite, men ligger typiskt på 120-130 GB/s) vilket de med modeller optimerade för NPU lär kunna max:a.

En Mac Studio med M2 Ultra är betydligt snabbare än servern i videon då den har 800 GB/s i bandbredd, vilket den med GPGPU kan utnyttja fullt ut.

Så vill man köra lokalt behöver fundera på sitt use-case. Bandbredden avgör tokens/s, man behöver nog komma upp till runt ca 10 token/s för att det ska vara realistiskt att jobba interaktivt med modellen.

Sen avgör RAM hur stor modellen kan vara. Att minska antalet parameters gör att modellen har mindre kunskap. Att minska antalet bitar man lagrar vikterna med påverkar saker som träffsäkerhet och hur varierade svar den kan ge. Ofta förloras väldigt lite när man går från FP16->Q8 (eller strax under).

Q4 kommer påverka, men fungerar ofta hyfsat.

Generellt sett uppför sig en modell med lägre Q-nivå men med alla parametrar kvar mer likt original-modellen än "distilled" modeller med högre Q-nivå fast om-tränad/konverterad till färre parameters.

För produkter som Copilot+ laptops och liknande behöver man nog smalna av fokus lite då modellen kommer få långt färre parameters. Ett vettig use-case är t.ex. de "distilled" modeller av DeepSeek som fokuserar på programmering, där kan man få rimlig hastighet och bra träffsäkerhet givet HW-begränsningarna.

Dual socket Epyc 9000 ska kunna leverera 1150 MB/s i bandbredd men folk kanske har räknat pris på äldre och billigare system.

Visa signatur

snorleffe

Citera flera Citera (1)

2025-02-02 23:17

Generationfloppy

Medlem

Registrerad: Mar 2022

●

Skrivet av ELF:

En AI-modell ska inte kunna göra något om inte programvaran man använder för att köra den inte tillåter konstigheter.

Det beror på hur man planerar att använda den och nivån av paranoia man känner. Personligen så känns det bättre att testa udda/nya/unaligned modeller i wsl/Ubuntu/ollama/Docker så har du garanterat koll på att inget tar sig ut på nätet.

Jag litar inte fullt ut på min betalda chat got gällande hur min data sparas/ev används oavsett inställningar, så ur en ren hygien faktor bör man anta att att data för eller senare hittar ut på internet och rimligtvis bör planera och förhindra det.

Så det är lite deprimerande att se hur många som rusade ut och laddade ner deepseek på sina telefoner...
Billigt/gratis =du och din data är produkten oavsett om det är en amerikansk eller kinesisk modell.

Citera flera Citera

2025-02-03 03:25

Orici

Medlem ★

Plats: Origin
Registrerad: Aug 2003

●

Varför ge utrymme till kinesisk propaganda?

Visa signatur

"Maybe one day you will learn that your way, is not the only way"

[ Mirror's Edge: Catalyst | Rise of the Tomb Raider | Dishonored 2 | Trine 3 ]

Citera flera Citera

2025-02-03 08:27

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av snorleffe:

Dual socket Epyc 9000 ska kunna leverera 1150 MB/s i bandbredd men folk kanske har räknat pris på äldre och billigare system.

Helt sant, p.g.a. saker som machine-learning, då främst LLMs, har det blivit större fokus på minnesbandbredd. Men som jag skrev ovan, då är det inte längre billigt (svårare att hitta begagnat och vill man ha CPU-modeller med "tillräckligt" med kärnor för att utnyttja bandbredden lär man passera 10k USD per CPU + RAM blir betydligt dyrare). Fast det är ändå helt inom ramen för vad relativt små företag skulle kunna köpa in för att köra lokalt.

Sen är LLMs rätt tacksamma i att de går att dela upp, är ju exakt så man gör för att få plats med en 1,5 TB modell på grafikkort: man installerar "tillräckligt" med grafikkort så deras totala VRAM-kapacitet blir tillräcklig.

Är också så folk lyckats köra 671B Q8 modell på "konsument-HW" i form av 6 st Mac Studio M2 Ultra. Där har man då en bandbredd på totalt 4,8 TB/s vilket ger OK prestanda. Även om det kostar 350-400k SEK (räcker med 128 GB RAM per enhet då) är det hyfsat "billigt" i detta kontext.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Citera flera Citera (2)

2025-02-03 09:53