Microsoft släpper Deepseek-modeller som kör på datorn

Permalänk
Melding Plague

Microsoft släpper Deepseek-modeller som kör på datorn

Den som har en Copilot Plus-dator kan nu testa en variant av Deepseek som kör lokalt.

Läs hela artikeln här

Visa signatur

Observera att samma trivselregler gäller i kommentarstrådarna som i övriga forumet och att brott mot dessa kan leda till avstängning. Kontakta redaktionen om du vill uppmärksamma fel i artikeln eller framföra andra synpunkter.

Permalänk
99:e percentilen

Till att börja med fungerar dessa modeller enbart på bärbara datorer med Qualcomm Snapdragon X-systemkrets, men stöd för Intel och AMD är också på väg.

Kul att ARM-stödet kommer först! x86 blir mer och mer akterseglat, även i praktiken.

Visa signatur

Skrivet med hjälp av Better SweClockers

Permalänk
Medlem

Hade inte kört någon AI-modell utan att stänga in den i en VM eller i vart fall med restriktioner mot resten av mitt nätverk och i vissa fall internet

Visa signatur

Fractal Design Define R6, ASUS X99a, Xeon E5-2697v3@3.5Ghz allcore, 64gb Hynix ECC REG 2133Mhz, 7900xt, 2.5gb nic

Server: Proxmox med OMV7, Teuenas och annat virtuellt: Supermicro X9SRH-7F, 64gb RAM, Xeon 2651v2, 4x10tb, 2.5gb Nic

Permalänk
Medlem

Jag testade att ladda hem LM Studio (gratis) och den kan också köra Deepseek (och mycket annat) offline. Vad skiljer detta från vad MS nu erbjuder?

Visa signatur

Lian-Li LanCool 216, ASRock B650E Taichi Lite, Ryzen 9950X, Arctic Liquid Freezer III 360, 64GB Kingston CL30/6000 RAM, MSI RTX 3090 Suprim X, 5TB NVMe SSD + 16TB SATA SSD, Seasonic Focus GX 1000W, Asus Swift PG32UCDM OLED + LG 32GP850 IPS

Permalänk
Medlem
Skrivet av osgorth:

Jag testade att ladda hem LM Studio (gratis) och den kan också köra Deepseek (och mycket annat) offline. Vad skiljer detta från vad MS nu erbjuder?

Det handlar väl mest om att de paketerar modellen med anpassad storlek till hårdvaran och riktar sig till de som inte orkar meka eller vet hur man gör detta själv.

Visa signatur

Ryzen 7 7800X3D | ASUS TUF Gaming B650-Plus WIFI | Kingston 32GB (2x16GB) DDR5 6GT/s CL30 FURY Beast | Kingston Fury Renegade M.2 NVMe SSD Gen 4 2TB | MSI RTX 4060 8GB | Fractal Design Define S | MSI MPG A850G 850W | Thermalright Phantom Spirit 120 SE | Windows 11 Pro | AOC 27" AGON AG276QZD2 OLED QHD 240 Hz

Permalänk
Medlem
Skrivet av Joppis:

Det handlar väl mest om att de paketerar modellen med anpassad storlek till hårdvaran och riktar sig till de som inte orkar meka eller vet hur man gör detta själv.

Aha, okej, tack. Jag blev mest nyfiken då jag precis börjat testa LM Studio här hemma, och så poppar nyheten upp. Bra timing.

Visa signatur

Lian-Li LanCool 216, ASRock B650E Taichi Lite, Ryzen 9950X, Arctic Liquid Freezer III 360, 64GB Kingston CL30/6000 RAM, MSI RTX 3090 Suprim X, 5TB NVMe SSD + 16TB SATA SSD, Seasonic Focus GX 1000W, Asus Swift PG32UCDM OLED + LG 32GP850 IPS

Permalänk
Medlem

försök köra 32B .. blir tungt. Det krävs Epyc och 512-1 TB ram att köra 720B.

Visa signatur

AMD5600x | MSI GamingXTrio 3080 10GB | Oculus Rift

Permalänk
Medlem
Skrivet av Alling:

Till att börja med fungerar dessa modeller enbart på bärbara datorer med Qualcomm Snapdragon X-systemkrets, men stöd för Intel och AMD är också på väg.

Kul att ARM-stödet kommer först! x86 blir mer och mer akterseglat, även i praktiken.

Hade väl varit skojigare om bägge kom samtidigt.

Nyttan kanske är lite begränsad dock.

Permalänk
Medlem
Skrivet av Tomasis:

försök köra 32B .. blir tungt. Det krävs Epyc och 512-1 TB ram att köra 720B.

Det står väl tydligt i blogginlägget att det är 1.5B som avses till att börja med?

Permalänk
Medlem
Skrivet av Gnarf:

Hade inte kört någon AI-modell utan att stänga in den i en VM eller i vart fall med restriktioner mot resten av mitt nätverk och i vissa fall internet

En AI-modell ska inte kunna göra något om inte programvaran man använder för att köra den inte tillåter konstigheter.

Visa signatur

www.fckdrm.com - DRM år 2025? Ha pyttsan.

Permalänk
Medlem

Angående rubriksättningen, du behöver inte ha någon Copilot dator för att köra DeepSeek.
Jag lyckas köra Deepseek-r1:8b lokalt genom wsl ubuntu, det kanske är dags att testa och köra en större modell än 8b dock.

Edit: 14b DS modellen körs riktigt rapp även på ett 4080s och är ett stort upplyft i svar mot 11b-gpt3

Visa signatur

 MSI GeForce RTX 4080 Super
AMD Ryzen 9700X
Kingston BEAST 64GB 6000Mhz
Kingston RENEGADE 4TB

Permalänk
Datavetare
Skrivet av osgorth:

Jag testade att ladda hem LM Studio (gratis) och den kan också köra Deepseek (och mycket annat) offline. Vad skiljer detta från vad MS nu erbjuder?

Står i bloggen vad poängen är

"The Neural Processing Unit (NPU) on Copilot+ PCs offers a highly efficient engine for model inferencing, unlocking a paradigm where generative AI can execute not just when invoked, but enable semi-continuously running services. This empowers developers to tap into powerful reasoning engines to build proactive and sustained experiences."

D.v.s. primära fördelen med att använda NPU istället för GPU är inte prestanda, utan att det är mer energieffektivt vilket är väldigt fördelaktigt när man kör på batteri eller rent generellt på enheter som kan vara begränsad av sin kylning.

Att köra DeepSeek på LmStudio via GPGPU drar upp till 50 W på min M3 Max. Att köra det på NPU skulle hålla sig under 10 W men det skulle gå långsammare på den datorn.

Med dagens Copilot+ är iGPUn nog i bästa fall lika snabb som NPU så där är det bara fördelar att köra på NPU.

Är möjligt att köra 70B modeller i datorer med iGPU/NPU där iGPU/NPU kan använda minst 50-60 GB RAM. Kanske går att klämma in större modeller, men vet att just 70B fungerar då jag kör det lokalt just nu (på GPGPU).

Skrivet av Tomasis:

försök köra 32B .. blir tungt. Det krävs Epyc och 512-1 TB ram att köra 720B.

Folk har även lyckats köra 720B modellen på endast 2 st M2 Ultra Mac:har, det med rätt likartad prestanda som dual-socket Epyc (flaskhalsen är primärt bandbredd mot RAM och 2st M2 Ultra och Zen4-baserade dual-socket Epycs har rätt snarlik bandbredd).

Det riktigt spännande är ju att det kanske inte är "billiga" datorer, men det är ändå datorer (framförallt M2 Ultra systemen) som är realistiskt för enskilda personer att ha direktaccess till med rimliga kostnader. Innan DeepSeek krävde ju motsvarande modeller långt dyrare HW, i praktiken krävdes access till datacenter.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk

Vi som är äldre har varit med många nya tekniker, mobiltelefon, smartphone, parabol, internet, elbil osv.

I början så har dessa mycket varit en skrytprodukt eller att man vill vara först, ytterst få sparar tid/pengar på att skaffa prylarna.

När det gäller LLM så behövs ej väldigt dyr hårdvara för att testa det lokalt, bara labba runt lite och lära sig. Att däremot så ett resultat som man kan spara tid och pengar på är svårare. Den 80 000kr datorn som någon länkade till kunde köra en bra LLM men så segt.
Utvecklingen går dock fort framåt och kanske om 5år får man en dator för samma pris som fungerar lite bättre rent praktisk.

Sist så håller samhället på att bli konstigt, allt fler köper privat utrustning för att använda i sitt jobb. Det är knasigt på alla sätt och vis. Vi pratar om betalversion av LLM, abonnemang på Adobe/Microsoft mfl. Till att köpa en dyr dator för att köra LLM.
Undra hur denna utveckling ser ut om 20år, när LLM kan vara tidsbesparande för väldigt många.

Permalänk
Medlem
Skrivet av Yoshman:

Det riktigt spännande är ju att det kanske inte är "billiga" datorer, men det är ändå datorer (framförallt M2 Ultra systemen) som är realistiskt för enskilda personer att ha direktaccess till med rimliga kostnader. Innan DeepSeek krävde ju motsvarande modeller långt dyrare HW, i praktiken krävdes access till datacenter.

I maj kanske nVIDIA project DIGITS finns tillgängligt för $3K (Antalet inte nämnt)

Det känns lite som det är "chip shortage" igen, kanske inte så illa som efter covid men det känns verkligen som det är svårt att få tag på de chip man vill ha.

Permalänk
99:e percentilen
Skrivet av Dunde:

Hade väl varit skojigare om bägge kom samtidigt.

Det hade det! Men ofta kommer ju i olika sammanhang stöd för "det ena" först och "det andra" sedan. Jag menade att det är kul att det är ARM-stödet, inte x86-stödet, som kommer först.

Visa signatur

Skrivet med hjälp av Better SweClockers

Permalänk
Medlem
Skrivet av Yoshman:

Står i bloggen vad poängen är

"The Neural Processing Unit (NPU) on Copilot+ PCs offers a highly efficient engine for model inferencing, unlocking a paradigm where generative AI can execute not just when invoked, but enable semi-continuously running services. This empowers developers to tap into powerful reasoning engines to build proactive and sustained experiences."

D.v.s. primära fördelen med att använda NPU istället för GPU är inte prestanda, utan att det är mer energieffektivt vilket är väldigt fördelaktigt när man kör på batteri eller rent generellt på enheter som kan vara begränsad av sin kylning.

Att köra DeepSeek på LmStudio via GPGPU drar upp till 50 W på min M3 Max. Att köra det på NPU skulle hålla sig under 10 W men det skulle gå långsammare på den datorn.

Med dagens Copilot+ är iGPUn nog i bästa fall lika snabb som NPU så där är det bara fördelar att köra på NPU.

Är möjligt att köra 70B modeller i datorer med iGPU/NPU där iGPU/NPU kan använda minst 50-60 GB RAM. Kanske går att klämma in större modeller, men vet att just 70B fungerar då jag kör det lokalt just nu (på GPGPU).

Folk har även lyckats köra 720B modellen på endast 2 st M2 Ultra Mac:har, det med rätt likartad prestanda som dual-socket Epyc (flaskhalsen är primärt bandbredd mot RAM och 2st M2 Ultra och Zen4-baserade dual-socket Epycs har rätt snarlik bandbredd).

Det riktigt spännande är ju att det kanske inte är "billiga" datorer, men det är ändå datorer (framförallt M2 Ultra systemen) som är realistiskt för enskilda personer att ha direktaccess till med rimliga kostnader. Innan DeepSeek krävde ju motsvarande modeller långt dyrare HW, i praktiken krävdes access till datacenter.

2× Mac Ultra kostar 100k – bra för någon som redan har en liknande dator.

En EPYC med massor av RAM kan byggas för 20–50k, beroende på var du får tag i delarna.

Flaskhalsen verkar vara NVMe om du inte har tillräckligt med RAM. Jag har kollat lite på SlothAI-modeller som har omarbetats.

jag lyckats köra 14B på min skitdator med 16gb ram o 10gb vram. 32b är ett minimum för mig som jobbar med webutveckling. Jag har tillgång till o3mini i Vscode ändå.

Visa signatur

AMD5600x | MSI GamingXTrio 3080 10GB | Oculus Rift

Permalänk
Medlem
Skrivet av lillaankan_i_dammen:

Vi som är äldre har varit med många nya tekniker, mobiltelefon, smartphone, parabol, internet, elbil osv.

I början så har dessa mycket varit en skrytprodukt eller att man vill vara först, ytterst få sparar tid/pengar på att skaffa prylarna.

När det gäller LLM så behövs ej väldigt dyr hårdvara för att testa det lokalt, bara labba runt lite och lära sig. Att däremot så ett resultat som man kan spara tid och pengar på är svårare. Den 80 000kr datorn som någon länkade till kunde köra en bra LLM men så segt.
Utvecklingen går dock fort framåt och kanske om 5år får man en dator för samma pris som fungerar lite bättre rent praktisk.

Sist så håller samhället på att bli konstigt, allt fler köper privat utrustning för att använda i sitt jobb. Det är knasigt på alla sätt och vis. Vi pratar om betalversion av LLM, abonnemang på Adobe/Microsoft mfl. Till att köpa en dyr dator för att köra LLM.
Undra hur denna utveckling ser ut om 20år, när LLM kan vara tidsbesparande för väldigt många.

så sant.. det räcker betala 200kr per månad eller köpa lite tokens via API för att utnyttja 720B eller mer

Visa signatur

AMD5600x | MSI GamingXTrio 3080 10GB | Oculus Rift

Permalänk
Datavetare
Skrivet av Tomasis:

2× Mac Ultra kostar 100k – bra för någon som redan har en liknande dator.

En EPYC med massor av RAM kan byggas för 20–50k, beroende på var du får tag i delarna.

Flaskhalsen verkar vara NVMe om du inte har tillräckligt med RAM. Jag har kollat lite på SlothAI-modeller som har omarbetats.

jag lyckats köra 14B på min skitdator med 16gb ram o 10gb vram. 32b är ett minimum för mig som jobbar med webutveckling. Jag har tillgång till o3mini i Vscode ändå.

Det går att köpa "refurbed" M2 Ultra med 192 GB RAM från Apple för ca $4700 st. Grejen med dessa är att de kommer till 100 % var begränsade av RAM-bandbredd då man kan använda iGPUn.

Samma lär gälla Copilot+ laptops, d.v.s. de lär kunna maximera prestanda med NPU då den bör kunna nå en prestandanivå där RAM är primär flaskhals.

Går att få ihop serverplattformar för mindre pengar som har tillräckligt med RAM och folk verkar gjort det med utrustning köpt på t.ex. eBay för så lite som $4000. Där i sig är ju heltcoolt!

Men ska man köra på CPU och nå en prestandanivå där bandbredd är flaskhals kommer bör man rimligen behöva gå upp en del i prisnivå. Kör man på CPU fixar t.ex. inte M4 Pro (som har lika många CPU-kärnor som M4 Max) att nå en prestandanivå där RAM-bandbredd är flaskhals.

På min M3 Max blir det en bit över 3x snabbare att köra på iGPU mot att köra på alla 16 kärnor, med iGPU huvudflaskhalsen RAM-bandbredd. Time-to-first-token är ca 7x snabbare med iGPU, så det verkar mer "compute-bound".

Oavsett är det ändå otroligt häftigt att detta gått från något som krävt datorsystem för miljoner till något som nu går att köra på system för under 10k USD!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk

Ni som kör på egen hårdvara - vad är fördelen mot de som finns online?
(T.ex. perplexity)

Permalänk
Skrivet av AlexCooper:

Ni som kör på egen hårdvara - vad är fördelen mot de som finns online?
(T.ex. perplexity)

Säkerhet många LLM står det klart och tydligt att ens information kan granskas av personer och det får man godkänna. Sedan finns det betalversioner där data kan komma ut. En egen LLM kan man träna på egen data.

På frågan varför jag testar LLM lokalt, ja det tar ett par minuter att testa detta. Svårighetsgraden att göra det är ungefär samma nivå som att installera ett datorspel.
Vad jag fick ut av det, ja testa det. Funktionsmässigt så tillför dessa LLMer mig inte mycket jag har på tok för slö hårdvara för detta.
Den LLM jag hade datakraft att köra och få ett svar som jag orkar vänta på. Kunde inte ens ge mig rätt berättelse om jag frågade den saker som om Pelle Svanslös.

Jag tror dock datorutveckligen kommer leda till att en i dagens mått kraftfull Ai laptop inte kommer vara så dyr.

Permalänk
Medlem
Skrivet av lillaankan_i_dammen:

Jag tror dock datorutveckligen kommer leda till att en i dagens mått kraftfull Ai laptop inte kommer vara så dyr.

Typ som en MacBook Air M4?

Har bara kört Apple Intelligence på min MacBook och är begränsad till engelska just nu, men GPT-4o mini vet vem Pelle Svanslös är:

"Pelle Svanslös är en fiktiv karaktär skapad av den svenska författaren Gösta Knutsson. Han är en katt som är känd för sin snälla och vänliga natur, men också för att han saknar svans, vilket gör honom annorlunda jämfört med andra katter. Berättelserna om Pelle Svanslös utspelar sig i Uppsala och handlar om hans äventyr och vänskap med andra djur, samt hans kamp mot mobbning och orättvisor, särskilt från den elaka katten Måns. Pelle Svanslös har blivit en älskad karaktär i svensk barnlitteratur och har även adapterats till teater, film och TV."

Kör även FLUX.1 (Draw Things) lokalt på min MacBook och har hittills inte hittat någon person eller objekt den inte känner igen.

Vilka modeller testade du samt på vilken hårdvara?

Permalänk
Medlem
Skrivet av AlexCooper:

Ni som kör på egen hårdvara - vad är fördelen mot de som finns online?
(T.ex. perplexity)

Integritet?

Permalänk
Skrivet av walkir:

Typ som en MacBook Air M4?

Har bara kört Apple Intelligence på min MacBook och är begränsad till engelska just nu, men GPT-4o mini vet vem Pelle Svanslös är:

"Pelle Svanslös är en fiktiv karaktär skapad av den svenska författaren Gösta Knutsson. Han är en katt som är känd för sin snälla och vänliga natur, men också för att han saknar svans, vilket gör honom annorlunda jämfört med andra katter. Berättelserna om Pelle Svanslös utspelar sig i Uppsala och handlar om hans äventyr och vänskap med andra djur, samt hans kamp mot mobbning och orättvisor, särskilt från den elaka katten Måns. Pelle Svanslös har blivit en älskad karaktär i svensk barnlitteratur och har även adapterats till teater, film och TV."

Kör även FLUX.1 (Draw Things) lokalt på min MacBook och har hittills inte hittat någon person eller objekt den inte känner igen.

Vilka modeller testade du samt på vilken hårdvara?

Macmini M4 16GB med Deepsek-r1:14b
Fråga berätta om katten Pelle Svanslös.
Och den börjar prata om en svensk sångare som heter Pelle Svanslös, senare att den ej hittar någon information, sist så säger den att den kan skapa en en egen fiktiv berättelse om katten.

Jag påstår att katten Pelle Svanslös nästan är lika viktigt som information om påven. ; -)

Skämt åsido, jag ser ej en LLM på denna nivå tillför mig så mycket. Jag ställer då frågorna emot de LLM på nätet och tänker efter vad jag frågar. Däremot tror jag utvecklingen går snabbt framåt.

Sist på frågan om jag ångrar att jag ej köpte en dubbelt så dyr Macmini, så tror jag inte jag hade blivit nöjd med prestandan på den heller. Men om 10år, ja då kanske jag köper en Macmini för detta pris som jag kan använda till LLM.

Permalänk
Datavetare
Skrivet av lillaankan_i_dammen:

Macmini M4 16GB med Deepsek-r1:14b
Fråga berätta om katten Pelle Svanslös.
Och den börjar prata om en svensk sångare som heter Pelle Svanslös, senare att den ej hittar någon information, sist så säger den att den kan skapa en en egen fiktiv berättelse om katten.

Jag påstår att katten Pelle Svanslös nästan är lika viktigt som information om påven. ; -)

Skämt åsido, jag ser ej en LLM på denna nivå tillför mig så mycket. Jag ställer då frågorna emot de LLM på nätet och tänker efter vad jag frågar. Däremot tror jag utvecklingen går snabbt framåt.

Sist på frågan om jag ångrar att jag ej köpte en dubbelt så dyr Macmini, så tror jag inte jag hade blivit nöjd med prestandan på den heller. Men om 10år, ja då kanske jag köper en Macmini för detta pris som jag kan använda till LLM.

Vad händer om du frågar på engelska istället för svenska?

Tycker generellt att svaren blir sämre om man använder svenska, gissningsvis en konsekvens från att det dessa modeller lär ha tränats på långt mer engelsk text än på ett relativt litet språk som svenska.

För ChatGPT säger ändå detta:

Prompt: When using Swedish, how do ChatGPT handle the prompt? Is the prompt translated to another language before processing?
Answer: When you enter a prompt in Swedish, ChatGPT processes it directly in Swedish without translating it into another language first. The model has been trained on multilingual data, so it understands and generates responses in Swedish natively. However, if a response requires information from a language it understands better (like English), it might internally reference that knowledge while still responding in Swedish.

Lokal DeepSeek R1 70B_Q5 svara detta på "Who is Pelle No-Tail"

Pelle Svanslös, which translates to Pelle No-Tail in English, is a fictional cat created by Gösta Knutsson. He first appeared in Swedish children's radio in 1937 and has since become a beloved character in books, TV shows, movies, and other media.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Datavetare
Skrivet av AlexCooper:

Ni som kör på egen hårdvara - vad är fördelen mot de som finns online?
(T.ex. perplexity)

För dagligt arbete kommer nog de flesta välja att använda de stora modellerna som ligger i datacenter. De ger bättre svar än mindre modeller och de ger svaren "inom rimlig tid".

Stora fördelen med att kunna köra lokalt är att ändå veta: om företag X blir totala assholes finns ändå andra sätt att fortsätta använda tekniken.

Sen beror det på vad man gör. En lokal modell kommer inte skicka något över nätet, något som kan vara direkt avgörande för vissa användarfall.

Att köra lokalt öppnar också upp för saker som integration av tekniken i egna applikationer. Om en sådan applikation har ett snävt fokus-område kan man ju då träna en modell som har "rimlig" storkel, men väldig hög träffsäkerhet för det som är viktigt för applikationen. Detta arbete kan underlättas en hel del om man kan starta från en redan tränad modell.

Och lite halv-relaterat: ni som pillar lite med Arduino, testa att koppla upp lite saker till kortet, beskriv hur ni dragit kablarna (vilken pinne de går till) och beskriv vad ni vill att den ska göra (t.ex. göra något med en serie neo-pixels). Detta verkar vara ett exempel på saker som DeepSeek R1 ofta slår ChatGPT o1 på fingrar, och då är ändå ChatGPT o1 normalt också imponerande träffsäker.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Permalänk
Medlem
Skrivet av Yoshman:

Det går att köpa "refurbed" M2 Ultra med 192 GB RAM från Apple för ca $4700 st. Grejen med dessa är att de kommer till 100 % var begränsade av RAM-bandbredd då man kan använda iGPUn.

Samma lär gälla Copilot+ laptops, d.v.s. de lär kunna maximera prestanda med NPU då den bör kunna nå en prestandanivå där RAM är primär flaskhals.

Går att få ihop serverplattformar för mindre pengar som har tillräckligt med RAM och folk verkar gjort det med utrustning köpt på t.ex. eBay för så lite som $4000. Där i sig är ju heltcoolt!

Men ska man köra på CPU och nå en prestandanivå där bandbredd är flaskhals kommer bör man rimligen behöva gå upp en del i prisnivå. Kör man på CPU fixar t.ex. inte M4 Pro (som har lika många CPU-kärnor som M4 Max) att nå en prestandanivå där RAM-bandbredd är flaskhals.

På min M3 Max blir det en bit över 3x snabbare att köra på iGPU mot att köra på alla 16 kärnor, med iGPU huvudflaskhalsen RAM-bandbredd. Time-to-first-token är ca 7x snabbare med iGPU, så det verkar mer "compute-bound".

Oavsett är det ändå otroligt häftigt att detta gått från något som krävt datorsystem för miljoner till något som nu går att köra på system för under 10k USD!

GPU är väldigt snabb men ganska dyr i förhållande till prestanda/pris. Jag gillar inte faktum att 192 GB är fastlött i Mac. I Sverige kostar sådana begagnade runt 75 000 kronor.

Jag väntar på några nya GPU:er med större RAM om några år. 5090 med 32 GB är en bra början, men det blir ännu coolare med ett Blackwell-professionellt kort med 96 GB RAM, även om det kostar 100 000 kronor.

Visa signatur

AMD5600x | MSI GamingXTrio 3080 10GB | Oculus Rift

Permalänk
Skrivet av Yoshman:

Vad händer om du frågar på engelska istället för svenska?

Tycker generellt att svaren blir sämre om man använder svenska, gissningsvis en konsekvens från att det dessa modeller lär ha tränats på långt mer engelsk text än på ett relativt litet språk som svenska.

För ChatGPT säger ändå detta:

Prompt: When using Swedish, how do ChatGPT handle the prompt? Is the prompt translated to another language before processing?
Answer: When you enter a prompt in Swedish, ChatGPT processes it directly in Swedish without translating it into another language first. The model has been trained on multilingual data, so it understands and generates responses in Swedish natively. However, if a response requires information from a language it understands better (like English), it might internally reference that knowledge while still responding in Swedish.

Lokal DeepSeek R1 70B_Q5 svara detta på "Who is Pelle No-Tail"

Pelle Svanslös, which translates to Pelle No-Tail in English, is a fictional cat created by Gösta Knutsson. He first appeared in Swedish children's radio in 1937 and has since become a beloved character in books, TV shows, movies, and other media.

Det hjälpte ej. Jag har en för liten version.
Sunda förnuftet säger. Katten Pelle Svanslös är en fiktiv berättelse. Oavsett hur intelligent någon är så kan den ej från namnet räkna ut vad någon författare hittade på.

Det krävs då att sagan finns sparad på något sätt i imagefilen för LLM vad den nu heter. Denna kan var komprimerad på olika sätt. Men en fil på 9GB som jag hade och den var byggd på världens data, så blev katten Pelle Svanslös information som ej kom med.

Detta beskriver ett problem. Jag vill att en bra LLM ska ha väldigt mycket kunskap, sedan ska den själv gå ut på nätet och leta när man ställer en fråga. Man kan då få vänta länge på svaret, men man får ett aktuellt svar.
Så om man frågar LLM vilket lag vann VM för något, så kommer LLM ha denna inf9rmation direkt efter någon källa den använder på internet har den. Sedan bör den även faktagranska svaret.

Permalänk

Om jag har fattat saken rätt så kan en dual socket Epyc köra inferance (slutledning) av den fulla odestillerade modellen med 768GB 24-kanalig RAM. Detta för en "rimlig" kostnad. Mängden RAM är uppenbarligen nödvändig, sedan blir minnesbandbredden flaskhalsen så att CPU-prestandan blir mindre viktig.

År detta ens möjligt med en samtida Mac?

Visa signatur

snorleffe

Permalänk
Medlem
Skrivet av snorleffe:

Om jag har fattat saken rätt så kan en dual socket Epyc köra inferance (slutledning) av den fulla odestillerade modellen med 768GB 24-kanalig RAM. Detta för en "rimlig" kostnad. Mängden RAM är uppenbarligen nödvändig, sedan blir minnesbandbredden flaskhalsen så att CPU-prestandan blir mindre viktig.

År detta ens möjligt med en samtida Mac?

Visa signatur

AMD5600x | MSI GamingXTrio 3080 10GB | Oculus Rift

Permalänk
Medlem
Skrivet av lillaankan_i_dammen:

Det hjälpte ej. Jag har en för liten version.
Sunda förnuftet säger. Katten Pelle Svanslös är en fiktiv berättelse. Oavsett hur intelligent någon är så kan den ej från namnet räkna ut vad någon författare hittade på.

Det krävs då att sagan finns sparad på något sätt i imagefilen för LLM vad den nu heter. Denna kan var komprimerad på olika sätt. Men en fil på 9GB som jag hade och den var byggd på världens data, så blev katten Pelle Svanslös information som ej kom med.

Detta beskriver ett problem. Jag vill att en bra LLM ska ha väldigt mycket kunskap, sedan ska den själv gå ut på nätet och leta när man ställer en fråga. Man kan då få vänta länge på svaret, men man får ett aktuellt svar.
Så om man frågar LLM vilket lag vann VM för något, så kommer LLM ha denna inf9rmation direkt efter någon källa den använder på internet har den. Sedan bör den även faktagranska svaret.

vänta på agi då ..10 år away

Visa signatur

AMD5600x | MSI GamingXTrio 3080 10GB | Oculus Rift