Inlägg

Inlägg som the squonk har skrivit i forumet
Av the squonk
Skrivet av anteå:

Köpte för många år sedan ett nytt Nvidia-kort till min PC. Före det hade jag haft ett Radeon (ATI) kort. Tyckte att Nvidia gav en markant sämre skärpa och även detaljer i spel. Försökte ställa om inställningarna men fick ändå samma resultat. Har läst att andra även haft samma erfarenheter. Vet inte hur det är med dagens Nvidia-kort, men jag har hållit mig fast vid Radeon

Det var nog på den gamla goda tiden när man använde VGA utgångar till sin monitor, dessa var analoga anslutningar så det krävdes en DAC för att omvandla den digitala bilden till en analog dito. Hur det nu var så hade AMD(ATI) på den tiden bättre kvalitet på sin DAC än vad Nvidia hade därav historien om en skarpare bild. Skillnaden försvann helt när vi gick över till DVI som ju är ett digitalt gränsnitt, och sedermera HDMI och som vanligast idag Displayport.

Kort sagt, AMD har inte skarpare bild nuförtiden.

Av the squonk
Skrivet av Mirialia:

Väntar på de bärbara varianterna för att se de i en minipc, skippa stationärt helt och hållet är målet. 😋

Det skall komma en rad laptops med Qualcomm-chips i år, enligt läckor presterar dom riktigt bra men framförallt längre batteritid på tapeten. Knepigt att vänja sig vid Windows för ARM kanske, vi får se hur det blir.

Av the squonk
Skrivet av DevilsDad:

Nu tycker jag du skapar förvirring här. Aleshis ursprungliga inlägg svarade på någon som inte förstod hur parallellisering hade med IPC att göra. Aleshi förklarade detta och du svarade med "högre IPC är alltid bättre". Tror inte att Aleshi hävdat något annat, utan förklarar bara varför det är komplext att öka IPC på ett sätt som ger praktisk nytta.

Som en extra nitos från mig: ökad IPC leder till större kretsar, vilket leder till mer strömförbrukning. Designar du en CPU med jättehög teoretisk IPC som i praktiken inte går att amvända så är det enda du har gjort att försämra energieffektiviteten. Så det är inte riktigt så enkelt som att högre teoretisk IPC alltid är bättre.

Det är väl ingen som har sagt att det är enkelt, någonsin, och särskilt inte jag. Men ett slutresultat är ett slutresultat. Självklart finns det många fler faktorer och ingen skulle hylla AMD om 9950X drar 450W load som 14900KS redan gör. Men förutsatt att man behåller 170-220W:ish som det är nu och ändå når 20-40% bättre IPC så är det imponerande. Särskilt med tanke på att Intel höll oss på halster i 10 år med 1-3% IPC-ökningar och bara 4 kärnor.

Angående storlek på chips så är Apples M3 faktiskt jättestor trots absolut senaste tillverkningstekniken, Apple ligger alltid en generation före i nod, så hög IPC och stort chip kan förklara dom måttligt höga frekvenserna. Det är alltid en balansgång, tex om Zen 5 faktiskt får 40% bättre IPC men bara klockar till 4.5GHz vs Zen 4 som når 5.7GHz så är det mindre imponerande.

Av the squonk
Skrivet av Aleshi:

Ursäkta, men du bemöter inte något jag säger. Du har inte förstått något alls. Om du inte förstått att en kärna har ett flertal beräkningsenheter och att det finns parallelliseringsproblem där så är du inte i en position att kritisera något jag skrivit.
Hade du förstått vad jag skrivit så hade du inte trott att jag inte vetat vad IPC är, Du hade förstått att det finns ett parallelliseringsproblem även inom en tråd i en kärna, och du hade inte försökt förklara att IPC gäller på "EN kärna".

Hög IPC är självklart bra, jag har inte sagt något annat. Det jag pratar om är hur du får en processorkärna att ha hög IPC, och varför det blir svårare och svårare att öka IPC. I en modern X86-processor delas kod upp i µOPs som kan fördelas på flera ALU:er. En del kod kan du lätt dela upp i flera µOPs och fördela på fler ALU:er och du kan hålla dem matade lättare. En del kod kan lättare köras Out-of-Order vilket underlättar mycket också. Medan annan kod är väldigt enkelspårig och behöver resultatet från en tidigare beräkning innan du kan göra nästa beräkning, och du kan svårligen parallellisera upp det till att utnyttja en kärna som är 10 issue wide. Detta är alltså hur parallelliserbar du kan göra en tråd i en kärna.
Detta är alltså inte samma sak som när man pratar antal trådar och antal kärnor. Sedan kan du såklart utnyttja en kärna bättre med fler trådar, allra helst om de har flertrådsteknik som tillåter att du exekverar två trådar samma klockcykel.

<Uppladdad bildlänk>

Du förstår inte vad jag menar heller, det jag menar är att man skall betrakta kärnan som en svart låda "black box" det du beskriver är allt som pågår inne i kärnan vilket visst är intressant men inte direkt har med själva begreppet IPC att göra. IPC är slutresultatet, oavsett på vilket sätt det har uppnåtts, du beskriver hur man gör för att uppnå det. Fruktsallad.

Av the squonk
Skrivet av F.Ultra:

nja @aleshi har rätt här. IPC på en modern x86 arkitektur innebär att du måste kunna mata alla ALU:s i en kärna med jobb den cyceln för att du ska komma upp i de siffror som presenteras. På simplare CPU:er som 6502 som har en enda ALU så är högre IPC alltid bättre för singeltrådade laster men på moderna arkitekturer är det inte så enkelt längre eftersom en kärna numera innehåller flera exekveringsenheter (ALU:er för heltal).

Zen5 t.ex har 6 ALU:er per kärna mot 4 på Zen4 så om schedulern kan fylla alla 6 med jobb i en cykel så kommer du upp i den IPC som AMD specar, men som någon i tråden redan anmärkte på så finns det gott om laster där man inte ens kan fylla alla 4 i Zen4 (och att så är fallet är ju det som hela biten med HT handlar om eftersom man då kan köra andra trådar i de ALU:s som blir över).

Det du skriver motsäger inte vad jag skrev, att högre IPC inte alltid kan utnyttjas fullt ut innebär inte att den inte är högre, som många redan har påpekat så kommer resultaten att variera vilt beroende på last men det kommer med all sannolikhet aldrig att gå långsammare ....

Av the squonk

USB-C fungerar ok för apparater som ligger still, men så fort grejorna börjar röra på sig som i tex en portabel DAC så märks det hur dålig kontakt det ofta är.

Av the squonk
Skrivet av Aleshi:

Du har lite fel. Han avser inte hur många trådar, och därmed kärnor, du kan dela upp det i, utan hur mycket man kan mata beräkningsenheterna inne i varje kärna. En processorkärna har ett flertal olika exekveringsenheter internt. Jag kan inte det hela särskillt väl. Men enkelt (och med förbehåll för missförstånd) kan jag säga att man använder en prefetch för att försöka ha så mycket uppgifter redo som möjligt och en schemaläggare som sedan försöker hålla alla beräkningenheter fyllda. Detta gäller även vid en tråd. Även om flertrådsteknik är ett sätt att utnyttja de resurser som inte utnyttjas av en ensam tråd.
Du kan lägga till fler beräkningsenheter i en kärna och öka kapaciteten, men du måste se till att kunna schemalägga tillräckligt för att dra nytta av dem. I mycket kod så kan du inte påbörja en beräkning innan du har svaret från beräkningen innan och enheterna kan då gå på tomgång. Det man kan göra är att göra exekveringen spekulativ och chansa på vilken data som ska beräknas hur i förväg och tjuvstarta.
Äldre processorer hade inte nytta av mer än några enstaka beräkningsenheter, men framsteg med prefetch, schemaläggning, cache och flerttrådsteknik har ökat processorns förmåga att utnyttja fler enheter. Men det blir svårare och svårare.

Det man kan göra är att korta ner pipelinen, så att antalet cykler det tar att få en output minskar, det hjälper när du behöver ett resultat från tidigare beräkning för att kunna mata beräkningsenheterna. Total throughput ökar dock inte. Efter att man ökat på längden på pipeline för att öka frekvenser med gamla P4 till priset av IPC, och misslyckats, så är jag rätt säker på att varje pipelinesteg är väldigt befogat idag. Och att de allt längre pipelines vi ser snarast ökar IPC med de steg som lagts in. Något man kanske kan göra är väl dock att öka bredd samtidigt som man kortar ner antalet steg. Men Zen 4 är redan idag uppe på en issue width på 10, mot 7 i Zen 3. Som kontrast så låg ursprungliga Zen på 4 om jag inte minns fel, Bulldozer på 2, men gamla hederliga Athlon/Athlon64 låg på 3.

Med tanke på vad jag hört om IPC innan så är jag ganska förvånad att vi sett de framsteg på IPC som vi sett över Haswell. Någon på forumet oändligt mycket kunnigare än jag i frågan förklarade svårigheterna på den tiden.

IPC är inte inklusive frekvenshöjningar.

Nu gör du fruktsallad LoL

Hög IPC är ALLTID bra om man vill att kod skall gå snabbare eftersom det beyder just det "instructions per clock" det vill säga antalet utförda instruktioner vid en klockcykel på EN kärna. Oavsett arkitektur. Det har ingenting med parallelisering osv att göra, däremot så kan olika typer av kod ha olika mycket nytta av en högre IPC men oavsett hur mycket så är det alltid en vinst jämfört med en lägre IPC.

Pratar vi multicore kan det också vara olika effektivt beroende på implementation, men det är inte vad som åsyftas med IPC.

Klockfrekvens är ett annat sätt att öka prestandan, någon nämnde Apple och dom kan pga bla just hög IPC(och bättre optimerad kod) klämma ut liknande prestanda vid 3GHz som x86 kräver 5GHz+ för.

Av the squonk
Skrivet av medbor:

40% finns ju redan, titta på apple och senaste ARM-chippen. Så på en rent teoretisk nivå kanske det kan gå?

I praktiken är det nog snarare specifika tester, någon speciell algoritm med fokus på någon speciell krets som förbättrats, kanske NPU?

Skulle vara kul om det blir något, kanske något för SD2? Zen5 & RDNA5, varför inte?

Första Zen hade 52% högre IPC än tidigare arkitektur, så saker händer ibland, dcok tror jag mer på 20-25% i snitt

Av the squonk
Skrivet av HappyPie:

Delar med lite var jag har snappat upp och tolkat.

Det var tidigt tänkt och planerat att RDNA4 skulle ha mer fokus på chiplets arkitektur, alltså en ännu mer uppdelat variant än den arkitektur vi finner hos RDNA3; Men AMD märkte tidigt att de inte skulle hinna med detta så de senarelade just denna variant till RDNA5 och istället planerade in en RDNA3 liknande variant till RDNA4.
Detta är var jag har snappat upp de senaste 6+ månaderna från diverse ryktesvägar.

En av AMDs ingenjörer nämnde tidigt att de stannade vid runt 80 CU för RDNA2 då det inte kunde skala effektivt till 120 eller 100 för raster-beräkningar.
Vid ett senare tillfälle nämnde en annan ingenjör (eller liknande) att RDNA3 hade tekniskt sätt möjlighet till att gå mycket högre men de stannade vid 96 för de ville hålla sig runt $1000 prisklassen.

Så för RDNA2 var det en tekniskt begränsning att nå högre prestanda medans RDNA3 en ekonomisk begränsning.

Med tanke på rådande kretsbrist, eller kanske rättare sagt rådande "prioritering för AI produktion", så är det klokt att RDNA4 fokuseras på att tillverkas på små kretsytor och med ett liknande paketeringssätt som RDNA3 chiplet arkitektur, där det paketeras flera minnesmoduler (MCD) med en beräkningsmodul (GCD), i olika nod-storlekar.
Detta för att AMD ska kunna få upp antalet kort till marknaden i stort, och främst till den större skaran som är egentligen mer intresserad att handla i mellanklassen, och antar att det skulle hjälpa för att inte tappa kunder till Battle Mage.

Gällande RDNA5, från diverse snack från AMD intervjuer kring arkitekturer på CPU, GPU och AI sidan, samt rykten kring RDNA5 så tolkar jag att utmaningen för den planerade arkitektur som skulle ha varit RDNA4 (som senarelades till RDNA5) har varit att dela upp GCD/beräkningsdelen i ännu fler och mindre moduler.
Anledningen till den stora utmaningen, jämfört med CPU chiplets, så har GPU chiplets stora behov av att överföra stor mängd data på väldigt kort tid, om man vill "chipletifiera" raster.
Det hade krävts enorma mängder "wires", alltså kopplingar, som skulle ta allt för stor plats.

Vad deras lösning för detta skulle vara, den som verkar ta lite extra lång tid, vet jag inte än... men är nyfiken så om någon vet, dela!
Vet i.a.f. på lång sikt att photonics är en potentiell lösning för dataöverföring men idag verkar dessa bara finnas lösningar mellan chips men ej mellan chiplets i respektive chip.

En lösning, gissning från min sida, är att AMD skulle kunna bara skita i att chipletifiera raster och dela upp GCD chipleten (Graphics Compute Die) i princip till 1 fullständig Raster del och ha flera RT delar. RT beräkningar är relativt enkelt att skala med nära 100% effektivitet.
Kanske skulle kunna även plocka ut "Media engine" delen och annat smått från GCD.

Hade dock varit intressant om vi fick se någon eller några extra "AI" chiplets (inference/träning) för att agera som instegskort till deras professionella MI300 serie samt få en större community kring ROCm (AMDs motsvarighet till CUDA).

Har också läst detta, att AMD sparar sig till RDNA5 detta är bara en mellangeneration för klara sig vidare, men om dom priskrigar så är det inte så illa ändå och med lägre energikonsumtion som bonus

Av the squonk

Nåväl, spännande tider om man redan sitter på AM5, tyvärr sägs X3D komma ett halvår senare men jag klarar mig nog på en 9950X ...

Av the squonk

I dessa tider när dom flesta blir spammade av bedragare typ hela tiden så är det verkligen inte läge för FLER QR-koder LoL

Av the squonk
Skrivet av Sarato:

Själv tycker jag tvärtom att moderna LGA-socklar tål klart mer stryk än vad de äldre socklarna gjorde. Har till och med provat för att de hur mycket stryk de tål och både Intels och AMD:s moderna diton kan hantera mycket innan piggarna böjs.

Eh, nej, i AMD:s fall så satt pinsen på CPU i förra generationen. Moderkortet var i princip omöjligt att ha sönder. Och dom pinsen på CPU var såpass tjocka att dom var lätta att böja tillbaka om det skulle vara så. Lycka till med att böja tillbaka något på nuvarande generation.

Av the squonk

Både Intels och AMD:s nya socklar är extremt ömtåliga pga att pinsen är så tunna, helt klart en påtaglig risk att sabba moderkortet vid CPU-montering/byte

Av the squonk

Kör RTX4080 i min primära burk, riktigt bra prestanda även om det finns bättre (4090).

Av the squonk
Skrivet av Pamudas:

Jag är väl medveten om att det stavas Thrash, men det står Trash lite överallt i artikeln

Indeed, oklart vad artikeln handlar om skräp eller musik

Av the squonk
Skrivet av Pamudas:

Trash? För att det är skräpmat?

Nej, det stavas "Thrash" det är helt enkelt thrash

Av the squonk
Skrivet av pålis:

??? Windows ser mobilkameran som en vanlig usb-kamera, behöver ingen extra mjukvara där heller. Funktionen kom i decemberuppdateringen om du har en Pixel IIRC. Kompatibel med Mac, Linux och Win.

Nyckelordet var "Pixel", du vet att inte alla använder Pixel-telefoner va?

Hursomhelst var det med sladd, nu fungerar det trådlöst så det är som att jämföra äpplen med päron.

Av the squonk
Skrivet av Schytheron:

Jag tvivlar inte att denna lösning är enkel. Men den lösningen som fanns innan detta var också superenkel (via kabel). Jag testade för några månader sedan med min Google Pixel 7A. Allt jag behövde köra var att koppla telefonen till datorn via USB och sedan välja "Use phone as Webcam" (eller liknande) när prompten dök upp i min telefon. Sedan var det klart (telefonen dyker upp och klassificeras som en webbkamera i device manager som vilken annan webbkamera som helst).

Låter som att det kan vara en Pixel-specifik feature, aldrig sett någon sådan prompt med någon telefon som jag anslutit till en dator.

Av the squonk

Såhär ska det se ut, och ja det låter bra ...

Av the squonk

Gud vad tråkigt, jag började köra Qobuz Studio igår med upp till 24/192 FLAC, det var en roligare nyhet för mig. Jag föredrar stort att LÄSA böcker.