AMD Zen 5 kan ge 40-procentig prestandaökning

2024-04-02 23:26

Permalänk

Aleshi

Medlem ★

Registrerad: Nov 2011

●

Skrivet av the squonk:

Nu gör du fruktsallad LoL

Hög IPC är ALLTID bra om man vill att kod skall gå snabbare eftersom det beyder just det "instructions per clock" det vill säga antalet utförda instruktioner vid en klockcykel på EN kärna. Oavsett arkitektur. Det har ingenting med parallelisering osv att göra, däremot så kan olika typer av kod ha olika mycket nytta av en högre IPC men oavsett hur mycket så är det alltid en vinst jämfört med en lägre IPC.

Pratar vi multicore kan det också vara olika effektivt beroende på implementation, men det är inte vad som åsyftas med IPC.

Klockfrekvens är ett annat sätt att öka prestandan, någon nämnde Apple och dom kan pga bla just hög IPC(och bättre optimerad kod) klämma ut liknande prestanda vid 3GHz som x86 kräver 5GHz+ för.

Gå till inlägget

Ursäkta, men du bemöter inte något jag säger. Du har inte förstått något alls. Om du inte förstått att en kärna har ett flertal beräkningsenheter och att det finns parallelliseringsproblem där så är du inte i en position att kritisera något jag skrivit.
Hade du förstått vad jag skrivit så hade du inte trott att jag inte vetat vad IPC är, Du hade förstått att det finns ett parallelliseringsproblem även inom en tråd i en kärna, och du hade inte försökt förklara att IPC gäller på "EN kärna".

Hög IPC är självklart bra, jag har inte sagt något annat. Det jag pratar om är hur du får en processorkärna att ha hög IPC, och varför det blir svårare och svårare att öka IPC. I en modern X86-processor delas kod upp i µOPs som kan fördelas på flera ALU:er. En del kod kan du lätt dela upp i flera µOPs och fördela på fler ALU:er och du kan hålla dem matade lättare. En del kod kan lättare köras Out-of-Order vilket underlättar mycket också. Medan annan kod är väldigt enkelspårig och behöver resultatet från en tidigare beräkning innan du kan göra nästa beräkning, och du kan svårligen parallellisera upp det till att utnyttja en kärna som är 10 issue wide. Detta är alltså hur parallelliserbar du kan göra en tråd i en kärna.
Detta är alltså inte samma sak som när man pratar antal trådar och antal kärnor. Sedan kan du såklart utnyttja en kärna bättre med fler trådar, allra helst om de har flertrådsteknik som tillåter att du exekverar två trådar samma klockcykel.

Senast redigerat 2024-04-02 23:38

Rapportera Redigera

Citera flera Citera (8)

2024-04-03 10:20

Permalänk

the squonk

Medlem ★

Plats: Stockholm
Registrerad: Mar 2004

●

Skrivet av Aleshi:

Ursäkta, men du bemöter inte något jag säger. Du har inte förstått något alls. Om du inte förstått att en kärna har ett flertal beräkningsenheter och att det finns parallelliseringsproblem där så är du inte i en position att kritisera något jag skrivit.
Hade du förstått vad jag skrivit så hade du inte trott att jag inte vetat vad IPC är, Du hade förstått att det finns ett parallelliseringsproblem även inom en tråd i en kärna, och du hade inte försökt förklara att IPC gäller på "EN kärna".

Hög IPC är självklart bra, jag har inte sagt något annat. Det jag pratar om är hur du får en processorkärna att ha hög IPC, och varför det blir svårare och svårare att öka IPC. I en modern X86-processor delas kod upp i µOPs som kan fördelas på flera ALU:er. En del kod kan du lätt dela upp i flera µOPs och fördela på fler ALU:er och du kan hålla dem matade lättare. En del kod kan lättare köras Out-of-Order vilket underlättar mycket också. Medan annan kod är väldigt enkelspårig och behöver resultatet från en tidigare beräkning innan du kan göra nästa beräkning, och du kan svårligen parallellisera upp det till att utnyttja en kärna som är 10 issue wide. Detta är alltså hur parallelliserbar du kan göra en tråd i en kärna.
Detta är alltså inte samma sak som när man pratar antal trådar och antal kärnor. Sedan kan du såklart utnyttja en kärna bättre med fler trådar, allra helst om de har flertrådsteknik som tillåter att du exekverar två trådar samma klockcykel.

<Uppladdad bildlänk>

Gå till inlägget

Du förstår inte vad jag menar heller, det jag menar är att man skall betrakta kärnan som en svart låda "black box" det du beskriver är allt som pågår inne i kärnan vilket visst är intressant men inte direkt har med själva begreppet IPC att göra. IPC är slutresultatet, oavsett på vilket sätt det har uppnåtts, du beskriver hur man gör för att uppnå det. Fruktsallad.

Visa signatur

|| R9 7950X MSI PRO X670-P WIFI 32GB-DDR5-6400c32 MSI RTX4080 Ventus 3X OC || CORE i9 12900KF MSI Z690 Tomahawk WIFI DDR4 32GB-3600c16 Gear1 TUF RTX3080 OC V2 || R7 5800X3D X570S CH8 Extreme 32GB-3800c18 Gigabyte RTX3080 GAMING OC || R9 5900X(B2) B550-F 32GB-3800c18 EVGA RTX3070 FTW Ultra || R9 3900X X470-Prime Pro 32GB-3200c16 MSI RTX2070 Super ||

Rapportera Redigera

Citera flera Citera

2024-04-03 10:56

Permalänk

DevilsDad

Medlem ★

Registrerad: Okt 2011

●

Skrivet av the squonk:

Du förstår inte vad jag menar heller, det jag menar är att man skall betrakta kärnan som en svart låda "black box" det du beskriver är allt som pågår inne i kärnan vilket visst är intressant men inte direkt har med själva begreppet IPC att göra. IPC är slutresultatet, oavsett på vilket sätt det har uppnåtts, du beskriver hur man gör för att uppnå det. Fruktsallad.

Gå till inlägget

Nu tycker jag du skapar förvirring här. Aleshis ursprungliga inlägg svarade på någon som inte förstod hur parallellisering hade med IPC att göra. Aleshi förklarade detta och du svarade med "högre IPC är alltid bättre". Tror inte att Aleshi hävdat något annat, utan förklarar bara varför det är komplext att öka IPC på ett sätt som ger praktisk nytta.

Som en extra nitos från mig: ökad IPC leder till större kretsar, vilket leder till mer strömförbrukning. Designar du en CPU med jättehög teoretisk IPC som i praktiken inte går att amvända så är det enda du har gjort att försämra energieffektiviteten. Så det är inte riktigt så enkelt som att högre teoretisk IPC alltid är bättre.

Rapportera Redigera

Citera flera Citera (4)

2024-04-03 11:01

Permalänk

Thomas

Hedersmedlem ★

Plats: Uppsala
Registrerad: Jul 2001

●

Skrivet av Dinkefing:

Det var det jag skrev. Jag har svårt att tro att AMD har 40% bättre singeltrådat. De har hintat om 15% bättre IPC sedan kanske gissar jag på 10% från lite högre frekvens.

Gå till inlägget

10% från frekvens är mycket i dagsläget dock, iaf enkeltrådat. 7950X3D verkar nå typ 5500-5600 MHz boost, så 10% extra blir omkring 6.1 GHz.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
Mobil: Moto G200

Rapportera Redigera

Citera flera Citera (1)

2024-04-03 11:11

Permalänk

Mirialia

Medlem ★

Plats: Månen
Registrerad: Jun 2005

●

Väntar på de bärbara varianterna för att se de i en minipc, skippa stationärt helt och hållet är målet. 😋

Visa signatur

AMD Ryzen 5 1600 3.2 GHz - MSI GeForce GTX 1060 Gaming X 6GB - Corsair 2x8GB 3000MHz

YOMAHA, YOMASO!

Rapportera Redigera

Citera flera Citera

2024-04-03 11:13

Permalänk

the squonk

Medlem ★

Plats: Stockholm
Registrerad: Mar 2004

●

Skrivet av DevilsDad:

Nu tycker jag du skapar förvirring här. Aleshis ursprungliga inlägg svarade på någon som inte förstod hur parallellisering hade med IPC att göra. Aleshi förklarade detta och du svarade med "högre IPC är alltid bättre". Tror inte att Aleshi hävdat något annat, utan förklarar bara varför det är komplext att öka IPC på ett sätt som ger praktisk nytta.

Som en extra nitos från mig: ökad IPC leder till större kretsar, vilket leder till mer strömförbrukning. Designar du en CPU med jättehög teoretisk IPC som i praktiken inte går att amvända så är det enda du har gjort att försämra energieffektiviteten. Så det är inte riktigt så enkelt som att högre teoretisk IPC alltid är bättre.

Gå till inlägget

Det är väl ingen som har sagt att det är enkelt, någonsin, och särskilt inte jag. Men ett slutresultat är ett slutresultat. Självklart finns det många fler faktorer och ingen skulle hylla AMD om 9950X drar 450W load som 14900KS redan gör. Men förutsatt att man behåller 170-220W:ish som det är nu och ändå når 20-40% bättre IPC så är det imponerande. Särskilt med tanke på att Intel höll oss på halster i 10 år med 1-3% IPC-ökningar och bara 4 kärnor.

Angående storlek på chips så är Apples M3 faktiskt jättestor trots absolut senaste tillverkningstekniken, Apple ligger alltid en generation före i nod, så hög IPC och stort chip kan förklara dom måttligt höga frekvenserna. Det är alltid en balansgång, tex om Zen 5 faktiskt får 40% bättre IPC men bara klockar till 4.5GHz vs Zen 4 som når 5.7GHz så är det mindre imponerande.

Visa signatur

|| R9 7950X MSI PRO X670-P WIFI 32GB-DDR5-6400c32 MSI RTX4080 Ventus 3X OC || CORE i9 12900KF MSI Z690 Tomahawk WIFI DDR4 32GB-3600c16 Gear1 TUF RTX3080 OC V2 || R7 5800X3D X570S CH8 Extreme 32GB-3800c18 Gigabyte RTX3080 GAMING OC || R9 5900X(B2) B550-F 32GB-3800c18 EVGA RTX3070 FTW Ultra || R9 3900X X470-Prime Pro 32GB-3200c16 MSI RTX2070 Super ||

Rapportera Redigera

Citera flera Citera

2024-04-03 11:16

Permalänk

the squonk

Medlem ★

Plats: Stockholm
Registrerad: Mar 2004

●

Skrivet av Mirialia:

Väntar på de bärbara varianterna för att se de i en minipc, skippa stationärt helt och hållet är målet. 😋

Gå till inlägget

Det skall komma en rad laptops med Qualcomm-chips i år, enligt läckor presterar dom riktigt bra men framförallt längre batteritid på tapeten. Knepigt att vänja sig vid Windows för ARM kanske, vi får se hur det blir.

Visa signatur

|| R9 7950X MSI PRO X670-P WIFI 32GB-DDR5-6400c32 MSI RTX4080 Ventus 3X OC || CORE i9 12900KF MSI Z690 Tomahawk WIFI DDR4 32GB-3600c16 Gear1 TUF RTX3080 OC V2 || R7 5800X3D X570S CH8 Extreme 32GB-3800c18 Gigabyte RTX3080 GAMING OC || R9 5900X(B2) B550-F 32GB-3800c18 EVGA RTX3070 FTW Ultra || R9 3900X X470-Prime Pro 32GB-3200c16 MSI RTX2070 Super ||

Rapportera Redigera

Citera flera Citera

2024-04-03 12:38

Permalänk

perost

Medlem ★

Plats: Linköping
Registrerad: Jun 2007

●

Skrivet av the squonk:

Du förstår inte vad jag menar heller, det jag menar är att man skall betrakta kärnan som en svart låda "black box" det du beskriver är allt som pågår inne i kärnan vilket visst är intressant men inte direkt har med själva begreppet IPC att göra. IPC är slutresultatet, oavsett på vilket sätt det har uppnåtts, du beskriver hur man gör för att uppnå det. Fruktsallad.

Gå till inlägget

Jag skulle påstå att det inte ens är IPC som är slutresultatet utan prestanda, för begreppet IPC används nästan bara för att mena "prestanda vid samma klockfrekvens" nu för tiden även om det egentligen är felaktigt. Så det blir lite förvirrat när IPC används för att mena två olika saker, inte sällan i samma inlägg

Hur många instruktioner en CPU kan exekvera per klockcykel säger annars inget om vilket arbete som faktiskt utförs, särskilt när man jämför olika instruktionsuppsättningar som x86 vs ARM. Det skulle ju vara relativt enkelt att designa en CPU med skyhög IPC men usel prestanda om man bara har en massa instruktioner som är snabba men oeffektiva.

Rapportera Redigera

Citera flera Citera (1)

2024-04-03 12:43

Permalänk

DevilsDad

Medlem ★

Registrerad: Okt 2011

●

Skrivet av the squonk:

Det är väl ingen som har sagt att det är enkelt, någonsin, och särskilt inte jag.

Gå till inlägget

Nä, jag jag har väl inte påstått det heller? Nu tar du saker ur luften igen.

Skrivet av the squonk:

Men ett slutresultat är ett slutresultat. Självklart finns det många fler faktorer och ingen skulle hylla AMD om 9950X drar 450W load som 14900KS redan gör. Men förutsatt att man behåller 170-220W:ish som det är nu och ändå når 20-40% bättre IPC så är det imponerande. Särskilt med tanke på att Intel höll oss på halster i 10 år med 1-3% IPC-ökningar och bara 4 kärnor.

Gå till inlägget

Absolut. Håller helt med om att allt över 20% ökning i ipc vore riktigt imponerande.

Skrivet av the squonk:

Angående storlek på chips så är Apples M3 faktiskt jättestor trots absolut senaste tillverkningstekniken, Apple ligger alltid en generation före i nod, så hög IPC och stort chip kan förklara dom måttligt höga frekvenserna. Det är alltid en balansgång, tex om Zen 5 faktiskt får 40% bättre IPC men bara klockar till 4.5GHz vs Zen 4 som når 5.7GHz så är det mindre imponerande.

Gå till inlägget

Hm.. var inte en stor del av anledningen att kapseln är så stor att den inkluderade ram också? Var verkligen själva SoCen större än tex en intel cpu? Hittade inget om det just nu och minns inte vilken storleksordning det handlade om.

Tänker att även ett huvudfokus på laptops är en anledning till att inte gå för högsta möjliga frekvens. Det försämmrar energieffektiviteten

Rapportera Redigera

Citera flera Citera

2024-04-03 14:47

Permalänk

Mirialia

Medlem ★

Plats: Månen
Registrerad: Jun 2005

●

Skrivet av the squonk:

Det skall komma en rad laptops med Qualcomm-chips i år, enligt läckor presterar dom riktigt bra men framförallt längre batteritid på tapeten. Knepigt att vänja sig vid Windows för ARM kanske, vi får se hur det blir.

Gå till inlägget

Jo det också, till nästa bärbara, men jag vill gärna ha en minipc som går att ta med sig och klarar av de få spel jag spelar + lite emulatorer.

Visa signatur

AMD Ryzen 5 1600 3.2 GHz - MSI GeForce GTX 1060 Gaming X 6GB - Corsair 2x8GB 3000MHz

YOMAHA, YOMASO!

Rapportera Redigera

Citera flera Citera

2024-04-03 18:56

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Backar man 10 år hade vi haft en väldigt lång period med rätt liten ökning i IPC under många år. Något lyckades Apple lura ut rätt snabbt i deras egen design, för de hade redan ett par generationer innan M1 släpptes långt högre ISO-frekvens prestanda jämfört med alla andra, inklusive AMD/Intel.

Både AMD och Intel har ökat storleken på sina CPU-kärnor väldigt mycket vid de senaste generationshoppen, så uppenbarligen har de hittat relevanta saker att stoppa transistorer på för både Zen4 och Golden Cove gav en av de större IPC-ökningar någonsin för respektive tillverkare. Fast de har också ökat effekten rejält, är fortfarande förvånande att plocka upp min Linux-laptop med i7-5600U som faktiskt är nästan helt tyst (det är en 15W TDP x86 CPU som faktiskt sällan drar mer än 15W, det slutade definitivt med 7000/8000-serien någonstans...).

Men givet att inte bara Apple, utan även Arm och snart också Qualcomm har betydligt högre ISO-frekvens prestanda jämfört med x86_64 gängen så kvarstår ändå frågan "varför är det så väldigt stor skillnad givet ungefär samma transistorbudget" (Zen4 och M2s stora kärnor är trots allt rätt snarlika i storlek på samma TSMC 5nm men M2 har 50-60 % högre "IPC").

Så uppenbart möjligt att öka IPC med 40 %. Frågan är bara vad som krävs för att lyckas i form av transistorbudget.

Finns ett par uppenbara skillnader som påverkar "IPC" mellan x86_64 och ARM64, ingen aning om de kan förklara skillnaden vi ser eller om det finns andra viktiga delar.

En superviktig sak är flag-register, det är i praktiken som att skriva multitrådade program där alla trådar har en delad variabel som de väldigt frekvent måste läsa/skriva (dödar parallellism ordentligt). ARM64 har ett flagregister, men tillskillnad från x86 påverkar de flesta instruktioner inte detta (finns speciella varianter av de flesta instruktioner som sätter flaggor, kompilatorer använder dessa väldigt sparsamt). Kommande APX för x86_64 kopierar detta från ARM64.

RISC-V har tagit detta ännu ett steg längre, där har man helt skrotat flag-registeret. Råder delade meningar om hur vettig den idén är, men blir väldigt spännande att följa den utvecklingen nu när det börjar komma lite high-end modeller (bl.a. Tenstorrent är på väg ut med en 8-wide RISC-V CPU).

En annan sak som skiljer x86_64 och ARM64 är att både AMD och Inte förlitar sig rätt mycket på micro-op cache i front-end. Arm kopierade detta för deras högst presterande kärnor under ett par generationer, men de har tagit bort det från Cortex X3. Apple har aldrig använt detta, så gissar att Qualcomm inte heller kommer köra med det givet att han som designat Qualcomms Oryon och designade "Apple Silicon" CPUerna.

Även här har x86_64, ARM64 och RISC-V tagit olika vägar. x86_64 har den totalt vansinniga varianten med dagens mått mätt, instruktioner kan vara allt från 1 byte till 15 bytes. RISC-V har en extension som i praktiken alla implementerar som gör att de vanligaste instruktioner är 2 bytes och de flesta är 4 bytes (något även 32-bit Arm har med Thumb2). Hos ARM64 är alla 4 bytes, vilket gör det enklast för dessa med extremt bred front-end.

AMD/Intel kan bara fylla en väldigt bred backend när saker kommer ur micro-op cache, blir nog för dyrt att ha en x86-frontend som kan avkoda supermånga instruktioner. Cortex X4 front-end som kan avkoda upp till 10 instruktioner per cykel. Exakt hur många M1-3 kan avkoda är till viss del spekulation, det är i alla fall minst 8 men kan vara fler hos M2/3. Zen4 kan max avkoda 4 x86_instruktioner, vid uop-cache hit kan den dock leverera upp till 9 uops.

En sak som jag har för mig AMD redan sagt är att man Zen5 kommer ha en bredare "front-end". Får se vad det ger.

Skrivet av the squonk:

Angående storlek på chips så är Apples M3 faktiskt jättestor trots absolut senaste tillverkningstekniken, Apple ligger alltid en generation före i nod, så hög IPC och stort chip kan förklara dom måttligt höga frekvenserna. Det är alltid en balansgång, tex om Zen 5 faktiskt får 40% bättre IPC men bara klockar till 4.5GHz vs Zen 4 som når 5.7GHz så är det mindre imponerande.

Gå till inlägget

Själva kretsen må vara stor, men majoriteten av den tas upp av GPU (framförallt på Pro/Max).

Jämför man M2 med Zen4, där båda är tillverkade på TSMC 5 nm, så är CPU+L2$ något större för M2. Fast då får man ha med sig att L2$ är 4 MB per kärna hos M2 och tar ~50 % av ytan medan den är 1 MB per kärna hos Zen 4 och tar ~20 % av ytan.

Så själva beräkningsenheterna är mindre i M2 jämfört med Zen4, trots långt högre "IPC" (korrekt "långt högre ISO-frekvensprestanda"). Det inkluderar då ändå L1$ som är 192kB I$ / 128kB D$ hos M2 och 32kB/32kB hos Zen4.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (2)

2024-04-03 19:44

Permalänk

the squonk

Medlem ★

Plats: Stockholm
Registrerad: Mar 2004

●

Skrivet av Yoshman:

Jämför man M2 med Zen4, där båda är tillverkade på TSMC 5 nm, så är CPU+L2$ något större för M2. Fast då får man ha med sig att L2$ är 4 MB per kärna hos M2 och tar ~50 % av ytan medan den är 1 MB per kärna hos Zen 4 och tar ~20 % av ytan.

Så själva beräkningsenheterna är mindre i M2 jämfört med Zen4, trots långt högre "IPC" (korrekt "långt högre ISO-frekvensprestanda"). Det inkluderar då ändå L1$ som är 192kB I$ / 128kB D$ hos M2 och 32kB/32kB hos Zen4.

Gå till inlägget

Visst är Apples krets mer än bara CPU men just själva storleken lär ändå påverka hur högt man kan klocka ingående delar, som tidigare påpekats påverkar också tillgänglig kylning(bärbar vs stationär). Man använder tex samma krets i Macbook Pro och Air men där Pro-versionen är 30-50% snabbare pga bättre kylning.

Ser ut som att Apple har satsat mycket på stor cache av den snabbaste varianten(L1/L2), dom har ju även integrerad gpu och RAM så mycket arbete ser ut att vara gjort för att ta bort flaskhalsar.

Finns troligen en hel del flaskhalsar kvar i nuvarande x86-64 så logiskt borde det fortfarande gå att öka prestandan. Sen är frågan vilka program som skulle tjäna på eventuella nya arkitektur-knep, det är som tidigare sagts inte lika enkelt som att bara höja klockhastigheten.

Visa signatur

|| R9 7950X MSI PRO X670-P WIFI 32GB-DDR5-6400c32 MSI RTX4080 Ventus 3X OC || CORE i9 12900KF MSI Z690 Tomahawk WIFI DDR4 32GB-3600c16 Gear1 TUF RTX3080 OC V2 || R7 5800X3D X570S CH8 Extreme 32GB-3800c18 Gigabyte RTX3080 GAMING OC || R9 5900X(B2) B550-F 32GB-3800c18 EVGA RTX3070 FTW Ultra || R9 3900X X470-Prime Pro 32GB-3200c16 MSI RTX2070 Super ||

Rapportera Redigera

Citera flera Citera

2024-04-03 21:54

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av the squonk:

Visst är Apples krets mer än bara CPU men just själva storleken lär ändå påverka hur högt man kan klocka ingående delar, som tidigare påpekats påverkar också tillgänglig kylning(bärbar vs stationär). Man använder tex samma krets i Macbook Pro och Air men där Pro-versionen är 30-50% snabbare pga bättre kylning.

Ser ut som att Apple har satsat mycket på stor cache av den snabbaste varianten(L1/L2), dom har ju även integrerad gpu och RAM så mycket arbete ser ut att vara gjort för att ta bort flaskhalsar.

Finns troligen en hel del flaskhalsar kvar i nuvarande x86-64 så logiskt borde det fortfarande gå att öka prestandan. Sen är frågan vilka program som skulle tjäna på eventuella nya arkitektur-knep, det är som tidigare sagts inte lika enkelt som att bara höja klockhastigheten.

Gå till inlägget

Storleken på kretsen har nog rätt begränsad bäring på hur högt CPU-delen kan klockas, kolla på AMDs och Intels bärbara kretsar där även de med den största iGPUn (som inte är Apple-storlek, men ändå tar ~50 % av kretsytan) där de ändå klockar CPU-delen en bra bit över 5 GHz.

Som @DevilsDad varit inne på så är även att designa för hög frekvens något som kostar transistorer (i CPU-delen av kretsen), ingen av ARM64 tillverkarna har så än så länge lagt speciellt mycket av sina transistorer för att uppnå det. Däremot har de gått väldigt brett.

Jämförelsens Golden Cove och Gracemont är rätt talande här. Den senare har IPC på Skylake nivå och kan klockas ungefär som Apples stora CPUer. Men Gracemont tar bara en fjärdedel av kretsytan av Golden Cove, så den extra IPCn och det betydligt högre frekvenstaket kostar enormt med transistorer.

Angående begränsningar som är fundamentala för x86_64 är det faktiskt slående hur lika Zen4 och Golden Cove presterar rakt igenom i Geekbench 6 deltester. Det trots att dessa två har rätt rejäla skillnader i mikroarkitektur, Zen4 är mer lik Arms Cortex X och även Intels Gracemont (även om Gracemont är kanske mer lik Zen2 sett till kapacitet) än Golden Cove.

Många deltester har även snarlik prestanda mellan M3 och Zen4/Golden Cove, men här finns och några som sticker ut rejält. Bl.a. är kompilering mycket snabbare på M3 (den är i ST 30-35 % snabbare jämfört med 7950X/14900K), medan det är fördel x86 i t.ex. ray-tracing testet (som mycket väl kan komma av att det använder Intel Embree, frågan är hur optimerat det är för Arm NEON...).

Finns indikationer på att Qualcomms Oryon är långt mer lik Apples CPUer i deltesterna än AMD/Intel, vilket kan peka på att ISA påverkar vissa. Kompilering anses vara en "svår" last att optimera för, det är relativt svårt för CPUn att spekulera (många hopp med oviss utgång) och inte speciellt hög data-lokalitet (så L1$ och kanske än mer mikro-op cache fungerar inte superbra).

T.ex. denna mellan AMD 7940HS och Qualcomm Oryon, ARM64 ser ut att bli programmerarens favorit (Clang är C/C++ kompilatorn baserad på LLVM, LLVM används idag inom massor av områden, allt från GPU-drivers, till alla möjliga programspråk, till x86_64 emulering på ARM64).

Skillnader på 10-15 % eller mindre är i praktiken rätt irrelevanta, men givet att det finns specifika fall som skiljer sig väl över 20 % mellan dagens högpresterande CPU-modeller gör det än viktigare att själv vara med på vad man prioriterar.

Just den stora skillnaden i storlek mellan Goldmont och Golden Cove, 4 gånger större yta fast "bara" 30-35 % i IPC, tror jag förklarar varför vi ändå sett en del IPC ökningar senaste generationerna. Fram till Broadwell/Skylake hade Intel någon form av policy att man bara accepterade prestandaförbättringar som gav minst lika bra perf/W (så var OK att öka effekt om prestanda ökade minst lika mycket relativt sett). Den policyn har uppenbarligen åkt ut genom fönstret, annars hade man aldrig hängt med AMD.

Så de rätt låga IPC-ökningarna vi såg innan kanske var en effekt av att, i alla fall för x86, så gick det inte att göra speciellt mycket med IPC inom ramen av att alltid öka perf/W. AMDs/Intels desktop CPUer hade ju en peak-effekt samma tillverkare idag har på sina snabbare laptop CPUer. (d.v.s. strax över 100 W )

Genom att i princip ignorera peak-effekt har man kunna fläska på med transistorer både för att höja IPC, men även frekvens (vi har trots allt gått från ~4 GHz både för AMD och Intel vid Zen1/Skylake, till dagens ~6 GHz).

Stämmer TDP-siffrorna för Zen5 Epyc så landar de ju på nya rekordnivåer, upp till 500-600 W. Stämmer det ryktet finns det nog också utrymme för saker som ökar IPC. Tur i så fall att det finns alternativ!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (2)

2024-04-03 23:12

Permalänk

the squonk

Medlem ★

Plats: Stockholm
Registrerad: Mar 2004

●

Just Qualcomm kommer att bli spännande, effektförbrukning/batteritid fortfarande relativt okänt men av dom tester som gjorts verkar det vara designat för låg effekt och skalar dåligt med mer kräm(23W vs 80W). Tyvärr kommer Gen 1 av Oryon att säljas utan möjlighet för diskret gpu, men Gen 2 bör det gå att köpa med antingen AMD eller Nvidia grafik och x86-lägret kan kanske börja oroa sig på allvar.

Visa signatur

|| R9 7950X MSI PRO X670-P WIFI 32GB-DDR5-6400c32 MSI RTX4080 Ventus 3X OC || CORE i9 12900KF MSI Z690 Tomahawk WIFI DDR4 32GB-3600c16 Gear1 TUF RTX3080 OC V2 || R7 5800X3D X570S CH8 Extreme 32GB-3800c18 Gigabyte RTX3080 GAMING OC || R9 5900X(B2) B550-F 32GB-3800c18 EVGA RTX3070 FTW Ultra || R9 3900X X470-Prime Pro 32GB-3200c16 MSI RTX2070 Super ||

Rapportera Redigera

Citera flera Citera (1)

2024-04-06 00:30

Permalänk

Bengt-Arne

Medlem ★

Plats: ˈvɔ̂kstɔrp
Registrerad: Nov 2013

●

TPU har en artikel uppe som kan ge en förklaring på var den påstådda 40%-iga ökningen kan hittas "AMD Zen 5 Execution Engine Leaked, Features True 512-bit FPU", det är då AVX som ju tidigare har varit en del (begränsad) till 256-bit.

Om detta stämmer så gäller inte ökningen för hela Zen5, eller allt, hur man nu skall uttrycka det, vilket då hade varit en enorm ökning.

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Rapportera Redigera

Citera flera Citera (1)

2024-04-06 10:26

Permalänk

Valetudo_swe

Medlem ★

Registrerad: Aug 2005

●

Skrivet av Bengt-Arne:

TPU har en artikel uppe som kan ge en förklaring på var den påstådda 40%-iga ökningen kan hittas "AMD Zen 5 Execution Engine Leaked, Features True 512-bit FPU", det är då AVX som ju tidigare har varit en del (begränsad) till 256-bit.

Om detta stämmer så gäller inte ökningen för hela Zen5, eller allt, hur man nu skall uttrycka det, vilket då hade varit en enorm ökning.

Gå till inlägget

Artikeln hänvisar till Moores Law is dead. Och han i sin tur har blivit lurad av ett twitter gäng som photoshoppat slides. Han har blivit tagen med byxorna nere, techpowerup och andra seriösa sajter lär nog inte hänvisa till MLID på ett bra tag

Rapportera Redigera

Citera flera Citera

2024-04-06 10:35

Permalänk

Pågenbröd

Medlem ★

Registrerad: Mar 2024

●

Man blir lite sugen på att köpa ett X670 moderkort för att förbereda sig för dessa, tror inte de nya X770(X870?) moderkorten kommer att ge mer än bättre stöd för RAM och timings.

Visa signatur

Make Sweclockers Great Again.

Rapportera Redigera

Citera flera Citera

2024-04-06 11:33

Permalänk

Thomas

Hedersmedlem ★

Plats: Uppsala
Registrerad: Jul 2001

●

Skrivet av Pågenbröd:

Man blir lite sugen på att köpa ett X670 moderkort för att förbereda sig för dessa, tror inte de nya X770(X870?) moderkorten kommer att ge mer än bättre stöd för RAM och timings.

Gå till inlägget

Varför köpa i förväg? Priserna på X670 lär väl inte öka innan processorerna släpps?

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
Mobil: Moto G200

Rapportera Redigera

Citera flera Citera (3)

2024-04-06 12:08

Permalänk

Fulci

Medlem ★

Registrerad: Jun 2003

●

Skrivet av Thomas:

Varför köpa i förväg? Priserna på X670 lär väl inte öka innan processorerna släpps?

Gå till inlägget

Det håller jag med om, snarare kanske vi får se lite kampanjer på de nuvarande moderkorten då.

Här är ett tidigare rykte om kommande moderkort (från MLID så ta det med en skopa salt).
https://www.techpowerup.com/318719/amd-readies-x870e-chipset-...

Rapportera Redigera

Citera flera Citera (1)

2024-04-06 19:15

Permalänk

Bengt-Arne

Medlem ★

Plats: ˈvɔ̂kstɔrp
Registrerad: Nov 2013

●

Skrivet av Valetudo_swe:

Artikeln hänvisar till Moores Law is dead. Och han i sin tur har blivit lurad av ett twitter gäng som photoshoppat slides. Han har blivit tagen med byxorna nere, techpowerup och andra seriösa sajter lär nog inte hänvisa till MLID på ett bra tag

Gå till inlägget

Givetvis är det mesta som gäller läckor photoshoppat, lite av en standard

Även om jag själv tar mycket från MLID med en stor nypa salt, så vet jag nog inte riktigt vad du vill komma.

Speciellt då sidan jag länkade till har en fotnote som säger:
"Update 07:02 UTC: Moore's Law is Dead reached out to us and said that the slide previously posted by them, which we had used in an earlier version of this article, is fake, but said that the information contained in that slide is correct, and that they stand by the information."

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Rapportera Redigera

Citera flera Citera (1)

2024-04-06 19:18

Permalänk

Bengt-Arne

Medlem ★

Plats: ˈvɔ̂kstɔrp
Registrerad: Nov 2013

●

Skrivet av Pågenbröd:

Man blir lite sugen på att köpa ett X670 moderkort för att förbereda sig för dessa, tror inte de nya X770(X870?) moderkorten kommer att ge mer än bättre stöd för RAM och timings.

Gå till inlägget

Minneskontrollern sitter i CPU'n, så det som kan skilja mellan olika chipset är typ/antal pcie, usb m.m.

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Rapportera Redigera

Citera flera Citera (1)

2024-04-07 11:08

Permalänk

backspace

Medlem ★

Plats: Karlstad
Registrerad: Mar 2002

●

Skrivet av lillaankan_i_dammen:

Nu blir det strejk! Snabbare dator = mindre väntetider (även kallad rast) på att datorn jobbar. Vart är världen på väg egentligen?

Skämt åsido, så jag inte mycket för påstående upp till. Men det är ändå intressant vad som händer, jag tror på mycket bättre Ai prestanda.

Gå till inlägget

Med framfarten på AI så kommer ni nog ha en "rast" på obestämd tid snart.

Visa signatur

Marantz NR1605, Rotel RB1090, Ino Audio piPs
SMSL SP200 THX Achromatic Audio Amplifier 888, SMSL M400, Audio-Gd NFB-11 (2015), Objective2+ODAC RevB, Audeze LCD-2 Rosewood, Monoprice M1060, ATH-M40x, Sennheiser HD660S, DROP X KOSS ESP/95X, Koss KPH30i, DROP X HiFiMan HE4XX

Rapportera Redigera

Citera flera Citera (2)

2024-04-12 11:12

Permalänk

Rebben

Medlem ★

Registrerad: Nov 2003

●

Skrivet av Bengt-Arne:

Minneskontrollern sitter i CPU'n, så det som kan skilja mellan olika chipset är typ/antal pcie, usb m.m.

Gå till inlägget

Minneskontrollern konfigureras, testas och kalibreras av UEFI innan processorn tillåts använda den och processorns reset släpps.
Microcontrollern som kör UEFI och minnet som lagrar UEFI sitter i chipset så chipset kan i högsta grad påverka minneskontrollern.

Senast redigerat 2024-04-12 11:22

Visa signatur

R&D Elektronikingenjör

Rapportera Redigera

Citera flera Citera

2024-04-12 15:50

Permalänk

Bengt-Arne

Medlem ★

Plats: ˈvɔ̂kstɔrp
Registrerad: Nov 2013

●

Skrivet av Rebben:

Minneskontrollern konfigureras, testas och kalibreras av UEFI innan processorn tillåts använda den och processorns reset släpps.
Microcontrollern som kör UEFI och minnet som lagrar UEFI sitter i chipset så chipset kan i högsta grad påverka minneskontrollern.

Gå till inlägget

När blev BIOS/UEFI likvärdigt med chipset?

Är som att likställa en ratt med hjul på bil.

Innan processorns reset är släppt så kan inte ens BIOS/UEFI köras.

Med BIOS med början från AM4 så medföljer AGESA som uteslutande konfigurerar CPU'n inkluderat minnes kontrollern, vid första start så sker en träning av minnes kontrollern i förhållande till minnet. Något som sker långt efter att reset är initierat.

Reset är det första som sker vid uppstart av en PC efter att du tryckt på startknappen, två kriterier skall uppfyllas.
1. Spänningen från nätdel och moderkortets spänningsmatning skall vara stabil (power good).
2. En mindre tid skall ha förflutit så att alla ingående kretsar är spänningssatta.
För det senare sätts en tidsfördröjning (normalt en R-C länk) som med råge täcker tiden.

Senast redigerat 2024-04-12 15:58 "främst" bytt ut till "uteslutande" -> mer korrekt

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Rapportera Redigera

Citera flera Citera

2024-04-12 18:29

Permalänk

Rebben

Medlem ★

Registrerad: Nov 2003

●

Skrivet av Bengt-Arne:

När blev BIOS/UEFI likvärdigt med chipset?

Är som att likställa en ratt med hjul på bil.

Innan processorns reset är släppt så kan inte ens BIOS/UEFI köras.

Med BIOS med början från AM4 så medföljer AGESA som uteslutande konfigurerar CPU'n inkluderat minnes kontrollern, vid första start så sker en träning av minnes kontrollern i förhållande till minnet. Något som sker långt efter att reset är initierat.

Reset är det första som sker vid uppstart av en PC efter att du tryckt på startknappen, två kriterier skall uppfyllas.
1. Spänningen från nätdel och moderkortets spänningsmatning skall vara stabil (power good).
2. En mindre tid skall ha förflutit så att alla ingående kretsar är spänningssatta.
För det senare sätts en tidsfördröjning (normalt en R-C länk) som med råge täcker tiden.

Gå till inlägget

Här har du fel. AGESA är ett mjukvarubibliotek på AMD-sidan som körs av UEFI/BIOS och jag sa aldrig att BIOS/UEFI var likvärdigt med chipset utan att mikrokontrollern som kör dem det sitter i chipsetet, tillsammans med många andra funktioner.

BIOS/UEFI/AGESA-starten körs INTE av processorn utan av en mikrokontroller i chipsetet. På Intelplattformen sitter denna i PCH (platform controller hub) i chipsetet. AMD-sidan kallar sin version av PCH kort och gott "Chipset".

När datorn startas står processorn i reset-läge. UEFI konfigurerar minneskontrollern (och andra delar) med hjälp av AGESA och testar och tränar den sedan, detta gör den även med USB och PCIe-länkarna.
När träningen är klar så släpper den minneskontrollern, och annan konfiguration, till processorn genom DMI-interfacet och släpper resetsignalen så att processorn kan starta med alla mappningar från DMI. Efter detta tar processorn över.

Processorn kan således inte starta utan att minneskontrollern är uppe.

Allt detta görs alltså innan du ser BIOS/UEFI-fönstet. När fönstret kommer upp har processorn redan startat. Det är därför datorn måste resettas för att ändringar i bioskonfguration skall bita, processorn måste startas om och få ny info genom DMI.

Senast redigerat 2024-04-12 18:40

Visa signatur

R&D Elektronikingenjör

Rapportera Redigera

Citera flera Citera

2024-04-13 11:06

Permalänk

Bengt-Arne

Medlem ★

Plats: ˈvɔ̂kstɔrp
Registrerad: Nov 2013

●

Skrivet av Rebben:

Här har du fel. AGESA är ett mjukvarubibliotek på AMD-sidan som körs av UEFI/BIOS och jag sa aldrig att BIOS/UEFI var likvärdigt med chipset utan att mikrokontrollern som kör dem det sitter i chipsetet, tillsammans med många andra funktioner.

BIOS/UEFI/AGESA-starten körs INTE av processorn utan av en mikrokontroller i chipsetet. På Intelplattformen sitter denna i PCH (platform controller hub) i chipsetet. AMD-sidan kallar sin version av PCH kort och gott "Chipset".

När datorn startas står processorn i reset-läge. UEFI konfigurerar minneskontrollern (och andra delar) med hjälp av AGESA och testar och tränar den sedan, detta gör den även med USB och PCIe-länkarna.
När träningen är klar så släpper den minneskontrollern, och annan konfiguration, till processorn genom DMI-interfacet och släpper resetsignalen så att processorn kan starta med alla mappningar från DMI. Efter detta tar processorn över.

Processorn kan således inte starta utan att minneskontrollern är uppe.

Allt detta görs alltså innan du ser BIOS/UEFI-fönstet. När fönstret kommer upp har processorn redan startat. Det är därför datorn måste resettas för att ändringar i bioskonfguration skall bita, processorn måste startas om och få ny info genom DMI.

Gå till inlägget

Det var ju intressant, förklara mer.

Var finns den processorn, specifikt.

Inte någonstans som i UEFI specifikationen (eller andra delar/specifikationer) så nämns en andra (eller andra) processorer förutom då processorn för värdsystemet x86/x64, ARM med flera... som skulle sköta uppstart och initiering av systemet, ej heller från annan källa. Linux uppstart, från MS med flera som jag vet, följt/följer, och nu sökt...

https://uefi.org/specs/UEFI/2.10/index.html

Så här behövs nog en källa

Såvida det nu inte tänks på AMD Infinity Guard/AMD Secure Boot vilket är något helt annat eller Intels motsvarighet:
https://www.intel.com/content/www/us/en/search.html?ws=text#q...

Hos AMD så sitter processorn (som är en ARM med egen låst firmvare) i CPU'n, hos Intel så satt den för något år sedan i chipset (har inte följt med där, så vet inte om den fortfarande sitter i cs), en snabb sökning ger att det nu (sen ME11) är en 32-bit Intel Quark som kör en variant av Minix 3.

Ändå så sköter dessa endast säkerhetsfunktioner (övervakning, kryptering m.m.) vid uppstart (boot) och körning = har inget med konfiguration av hårdvaran i övrigt.

Men som sagt, du är fri att motbevisa
Det är ju ändå en del av forumet, förutom då att jag om jag nu har fel, vill lära mig!

Gärna med källa/källor...

Edit:
Historiskt så har alltid processorn i PC startat innan minnes kontrollern varit konfigurerad, man har då kört med processorns interna register och senare när cache introducerades så användes även cache för körning vid uppstart.

Senast redigerat 2024-04-13 11:12

Visa signatur

Engineer who prefer thinking out of the box and isn't fishing likes, fishing likes is like fishing proudness for those without ;-)
If U don't like it, bite the dust :D
--
I can Explain it to you, but I can't Understand it for you!

Rapportera Redigera

Citera flera Citera

AMD Zen 5 kan ge 40-procentig prestandaökning

Externa nyheter

Spelnyheter från FZ