🐉 Illustration mikroarkitektur Zen5, Lion Cove, Airmont, X925

PermalÀnk
Datavetare ★
●

🐉 Illustration mikroarkitektur Zen5, Lion Cove, Airmont, X925

Alla Ă€r vĂ€lkomna att spekulera vidare i denna trĂ„d. Är pĂ„ semester och hade lite tid över...

Slogs av kÀnslan att high-end mikroarkitekturer för CPU börjat konvergera till en rÀtt snarlik design oavsett tillverkare.

För att fÄ lite bÀttre överblick ritade jag upp en översikt för Zen 5 (vilket mÀrkligt nog Àr den som finns absolut minst konkret information kring trots att den snart börjar sÀljas), Lion Cove, Skymont och Cortex X925.

Zen 5 och Lion Cove Àr pÄ mÄnga sÀtt vÀldigt lika varandra. Skymont Àr betydligt mer lik high-end Arms, nu tittade jag pÄ senaste Cortex X, Skymont Àr Àn mer lik Cortex X2/X3 (den Àr inte lika "bred" som X4/X925).

OcksÄ sett bÄde Chips&Cheese och YT-profilen high-yield (som har en riktigt bra video om Lion Cove och Skymont i Lunar Lake)

NĂ„gra observationer:

Backend x86 big-core
Om man gÄr efter "back-end" Àr numera Skymont den "bredaste" x86 designen som existerar. Vem hade trott det nÀr Atom lanserades...

Sett kommentarer kring att mÄnga exekveringportar gör det svÄrare att klocka en krets riktigt högt. Zen 5 och Lion Cove Àr vÀldigt lika hÀr med fÀrre men lÄngt mer komplexa portar.

Split decoders i Skymont och Zen 5
I Gracemont gjorde Intel en lite udda sak med front-end. För att komma runt att komplexiteten Àr kvadratisk för x86 (p.g.a. att lÀngden pÄ instruktioner kan vara allt frÄn 1 till 15 bytes) med ökad bredd gjorde man istÀllet tvÄ st 3-wide avkodare.

2*3^2 = 18, 6^2 = 36

sÄ betydligt mindre komplex med 2 st 3-wide decoders jÀmfört med 1 st 6-wide.

I Airmont ökar man det till 3 st 3-wide. Samtidigt introducerar Zen 5 ocksÄ detta, man gÄr till 2 st 4-wide medan Lion Cove gÄr till 1 st 8-wide (den sista Àr lite osÀkert, men det Àr vad allt pekar pÄ).

Arm kan smaska pÄ med 1 st 10-wide, dÀr Àr alla instruktioner lika lÄng sÄ komplexiteten Àr hyfsat nÀra linjÀr med bredd. Det skrivet: vad ska man med flera avkodare till???

Det bÄde Skymont och Zen 5 anvÀnder det till Àr att direkt kunna börja avkoda den instruktion ett taget hopp skulle landa vid. OvanpÄ det ska Zen 5 ocksÄ göra sÄ att om bÄda CPU-trÄdarna anvÀnds fÄr den en 4-wide avkodare var (just detta har testas med gott resultat i Freescales PowerPC e6500, det typ inversen av vad man gjorde i Bulldozer).

I fallet Airmont finns ingen SMT, sÄ det Àr det just för att öka IPC. Med 3 st avkodare kan den hantera 2 tagna hopp per cykel. Tydligen har Intel kika pÄ bÄde 2 st 4-wide och 3 st 3-wide för Airmont, men de kom fram till att den senare ger mer utvÀxling för IPC (men gissar att den förra vore bÀttre om man haft SMT med 2 CPU-trÄdar).

Issue

Alla x86 designerna verkar vara kapabla att skicka in 8 st instruktioner till back-end.

Exakt information för Zen 5 Àr rÀtt osÀker hÀr, mesta Àr baserat pÄ GCC-patchar för Zen 5. StÀmmer den Àr man kvar pÄ samma kapacitet som Zen 4 dÀr issue och retire Àr symmetriska.

Skymont har vÀldigt hög retire-kapacitet, 16 instruktioner. Det ska stÀmma och Chips&Cheese har fÄtt info om att Intel valt att göra sÄ dÄ det frigör utrymme snabbare i back-end och att deras simuleringar visade att det kostade mindre transistorer att göra sÄ mot att öka storleken pÄ ROB (som ÀndÄ nu Àr helt i "big-core" x86 nivÄ, men en bit efter "big-core" ARM64).

Just ROB Àr nÄgot Intel historiskt lagt rÀtt mycket resurser pÄ. Lion Cove fÄr en ganska liten minskning frÄn Golden Cove, men Àven hÀr har man nu högre "retire" kapacitet, 12 uops, jÀmfört med vad som kan stoppas in.

Flyttal

HÀr finns definitivt tvÄ lÀger!

"Big-core" x86 har gÄtt efter instruktioner som var för sig kan hantera vÀldigt mycket data. En av de stora nyheterna i Zen 5 Àr ju att SIMD-delen nu blir 512 bit bred. Zen 4 har AVX-512 stöd, men den processar dessa över tvÄ iterationer dÄ den internt Àr 256-bit bred.

Lion Cove Àr 256-bit bred med 2 FMA och 2 add/div kapabla portar. Zen 5 har ocksÄ 4 portar.

Arm (Àven Apple och av allt att döma Qualcomm) har en helt annan approach hÀr. De har 128-bit databredd, fast istÀllet har man fler portar (Apple har 6 st, det har nu ocksÄ Arm medan det Àr oklart för Oryon men givet prestanda Àr den nog ocksÄ 6 wide).

BĂ„da har fördelar och nackdelar. Är lĂ€ttare att fullt ut utnyttja fler fast smalare SIMD, men det krĂ€ver totalt sett mer transistorer.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

PermalÀnk
Datavetare ★
●

Och hÀr Àr illustrationerna

"Look at the size of that thing" nÀr man ser backend pÄ Cortex X925... Kommer bli spÀnnande att se den i aktion i slutet av Äret!

Men Àven Skymont Àr bred!

Updaterade zen 5
Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

PermalÀnk
Moderator
Festpilot 2020, Antiallo ★
●

Har inte semester Àn men ska absolut ta en kik pÄ detta nÀr tillfÀlle ges!

Visa signatur

 | PM:a Moderatorerna | KontaktformulÀret | Geeks Discord |
Testpilot, Skribent, Moderator & Geeks Gaming Huvudadmin

PermalÀnk
Datavetare ★
●

CPU cache

TÀnker inte försöka mig pÄ att fÄ in saker som latens. Dels tror jag det bara för Lion Cove de Àr kÀnt av dessa i nulÀget, men Àr nog bara Zen 5 man kan sÀga nÄgot om cache-policy (och det bara om vi förutsÀtter att den Àr samma som Zen 4).

Men en tabell pÄ storlek gÄr ÀndÄ att göra, ihop med en procentuell förÀndring frÄn föregÄende generation

CPU

L1I

L1D

L1.5

L2

Zen 5 (Strix Point)

32 kB (+0 %)

48 kB (+50 %)

-

1 MB (+0 %)

Zen 5 (Desktop)

32 kB (+0 %)

48 kB (+50 %)

-

1 MB (+0 %)

Lion Cove (Lunar Lake)

64 kB (+0 %)

48 kB (+0 %)

192 kB (nytt)

2,5 MB (+25 %)

Lion Cove (Arrow Lake)

64 kB (+0 %)

48 kB (+0 %)

192 kB (nytt)

3 MB (+50 %)

Airmont (Lunar Lake)

64 kB (+0 %)

32 kB (+0 %)

-

4 MB per 4 cores (+0 %)

Airmont (Arrow Lake)

64 kB (+0 %)

32 kB (+0 %)

-

4 MB per 4 cores (+0 %)

Cortex A925

64 kB (+0 %)

64 kB (+0 %)

-

3 MB (+50 %)

FÄr se vad Lion Coves 1,5 L1$ kommer ge. Intel vill kalla den L1 och det som tidigare var L1 för L0... Men tittar man pÄ latens och bandbredd Àr det de kallar L0 vad man normalt kallar L1.

Den nya cachen Àr dock verkligen "ny" i bemÀrkelsen bandbredd Àr mer lik L2, men latensen Àr ca halva den mot L2 (och latens mot L2 Àr ungefÀr samma som för Raptor Cove).

Undrar varför de lagt till denna??? Kanske Ànnu en i raden av saker de verkar försökt kopiera frÄn Apple Silicon, hela Lunar Lake verkar ju vara x86-varianten av grundmodellen av M-serien (vilket faktiskt kan visa sig vara en bra sak).

Skippade L3, det Àr inte en del av CPU-kÀrnan och blir dÀrför lite stökigt i tabellform.

Desktop Zen 5 har 32 MB L3$ per chiplet.

Strix Point har 24 MB.

Arrow Lake har 3 MB per "slice". En sÄdan per P-core och en per 4 st E-cores. D.v.s. totalt 36 MB i 8P+16E

Lunar Lake har 3 MB per "slice". DÀr Àr det bara en sÄdan per P-core, sÄ 12 MB i 4P+4E. DÀremot har Lunar Lake ocksÄ 8 MB "system cache" som alla delar, Àven E-cores, GPU och NPU kan anvÀnda och blir i praktiken L4$ för P-cores.

Cortex A925 har ingen specifik storlek. I praktiken har alla moderna systemkretsar en "system cache" (som nu ocksÄ Intel inför i Lunar Lake) pÄ typiskt 8 MB eller mer. M3 Max antas ha 48 MB system-cache och Àr vÀl den största sÄ hÀr lÄngt (men den har ocksÄ 32 MB L2$ till P-cores!).

Tittar man pÄ Intel och AMD sÄ börjar de vÀl rÀtt mycket konvergera Àven hÀr... Kanske inte sÄ konstigt att Lion Cove och Zen 5 av allt att döma fÄr nÀra nog samma IPC och samma maxfrekvens.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

PermalÀnk
Datavetare ★
●

Mobil och desktop

En annan sak som börjar klarna, Àven om det inte Àr officiellt för Zen 5 Àn, Àr att bÄde Intel och AMD gör allt större skillnader mellan sina desktop-varianter kontra mobil-varianter.

Zen 5
Detta Àr Ànnu inte officiellt, men lÀckta benchmarks pekar pÄ detta.

Redan Zen 4 fick stöd för AVX-512. Men den interna bredden hölls kvar pÄ 256-bit, sÄ instruktioner som anvÀnder 512-bit register fÄr köra "tvÄ varv".

En kÀnd nyhet i Zen 5, och antaligen var "40 % högre IPC" ryktet kommer ifrÄn Àr att desktop/server versionen gÄr till 512-bitars bredd.

DÀremot verkar mobil-versionen av Zen 5 köra samma modell som Zen 4. Antagligen vettigt fÄr att hÄlla nere effekten.

FrÄn benchmarks tyder det pÄ att sÀttet man verkar ha implementera detta gör att desktop versionen av Zen 5 presterar lika bra, eller bÀttre i fallet AVX-512, jÀmfört med Zen 4 rÀknat per cykel. Men (och det Àr trots allt lÀckor, sÄ ta med saltet) resultaten för mobilvarianten pekar pÄ samma prestanda som Zen 4 för AVX-512 men ibland verkar det nÄgot lÀgre med 128/256 bit (AVX-512 instruktioner kan köras med 128, 256 eller 512 bit. Intels nya AVX01 Àr i praktiken AVX-512 som bara stödjer 128 och 256 bit).

Sen Àr det redan officiellt att Strix Point fÄr en 4+8 konfiguration, d.v.s. 4 st "high-performance" Zen 5 och 6-8 st "high-density" Zen 5. FrÄgan Àr hur högt de senare klockar, Zen 4C gick till max 3,7 GHz tror jag.

Lion Cove

Intel vill inte ens beskriva Lion Cove som "en specifik mikroarkitektur". Tydligen finns det en del "legobitar", som t.ex. SMT och storlek pÄ L2$ som kan varieras beroende pÄ anvÀndingsomrÄde.

Lunar Lake kör med en TSMC 3B "low-power" version med 2,5 MB L2$ och dÀr SMT-stöd fysiskt inte existerar. SMT-stöd tar tydligen idag 5 % extra effekt av att bara finnas (Àven om det inte anvÀnds) och ger 15 % sÀmre perf/mm^2. Det enligt Intel

Effektivitet nÀr transistorer för HT Àr fysiskt bortplockade frÄn CPU-kÀrnan

Effektivitet nÀr transistorer för HT finns, men HT Àr avstÀngt

Xeon baserad pÄ Lion Cove kommer av allt att döma ha SMT stöd, dÀr övervÀger fördelarna. Oklart för Arrow Lake i nulÀget, men gissningen Àr att en desktop-produkt med upp till 8+16 kÀrnor lÀr ha mer vÀrde av bÀttre perf/W nÀr "halvmÄnga CPU-trÄdar anvÀnds" Àn maximal Cinebench-poÀng med SMT.

Oavsett sÄ skiljer sig Lion Cove i Arrow Lake pÄ tvÄ sÀtt frÄn den i Lunar Lake: mer L2$, 3 GB i stÀllet för 2,5 GB. Access till mer L3$ dÄ Àven E-kÀrnorna har L3$ i Arrow Lake. Det lÀr ge högre IPC, men oklart om det blir 1 % eller mer

Finns ju lÀckor som nÀmner att Lion Cove i Arrow Lake fÄr 20 % bÀttre prestanda ISO-frekven mot Raptor Cove. Men Àr i nulÀget bara en lÀcka. Det lÀr i alla fall bli mer Àn 14 % som ska var ökningen för Lunar Lake (förutsatt att dessa 14 % stÀmmer).

Skymont

Den skiljer sig rÀtt mycket mellan desktop och laptop.

Och hÀr har Intel gjort det rÀtt förvirrande med siffrorna man presterade bl.a. pÄ Computex...

38 % högre IPC för heltal och 68 % högre för flyttal Àr specifikt för Lunar Lake över LP E-cores i Meteor Lake dÄ man i bÄda fallen jÀmför E-kÀrnor som saknar L3$.

2 % högre IPC jÀmfört med Raptor Cove Àr dÀremot varianten i Arrow Lake dÀr E-kÀrnor har access till L3$...

Oavsett sÄ lÀr MT-prestanda öka rÀtt ordentligt för Arrow Lake över Raptor Lake just dÄ E-kÀrnorna blivit sÄ vÀldigt mycket starkare.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

PermalÀnk
Medlem ★
●
Skrivet av Yoshman:

En annan sak som börjar klarna, Àven om det inte Àr officiellt för Zen 5 Àn, Àr att bÄde Intel och AMD gör allt större skillnader mellan sina desktop-varianter kontra mobil-varianter.

Zen 5
Detta Àr Ànnu inte officiellt, men lÀckta benchmarks pekar pÄ detta.

Redan Zen 4 fick stöd för AVX-512. Men den interna bredden hölls kvar pÄ 256-bit, sÄ instruktioner som anvÀnder 512-bit register fÄr köra "tvÄ varv".

En kÀnd nyhet i Zen 5, och antaligen var "40 % högre IPC" ryktet kommer ifrÄn Àr att desktop/server versionen gÄr till 512-bitars bredd.

DÀremot verkar mobil-versionen av Zen 5 köra samma modell som Zen 4. Antagligen vettigt fÄr att hÄlla nere effekten.

FrÄn benchmarks tyder det pÄ att sÀttet man verkar ha implementera detta gör att desktop versionen av Zen 5 presterar lika bra, eller bÀttre i fallet AVX-512, jÀmfört med Zen 4 rÀknat per cykel. Men (och det Àr trots allt lÀckor, sÄ ta med saltet) resultaten för mobilvarianten pekar pÄ samma prestanda som Zen 4 för AVX-512 men ibland verkar det nÄgot lÀgre med 128/256 bit (AVX-512 instruktioner kan köras med 128, 256 eller 512 bit. Intels nya AVX01 Àr i praktiken AVX-512 som bara stödjer 128 och 256 bit).

Sen Àr det redan officiellt att Strix Point fÄr en 4+8 konfiguration, d.v.s. 4 st "high-performance" Zen 5 och 6-8 st "high-density" Zen 5. FrÄgan Àr hur högt de senare klockar, Zen 4C gick till max 3,7 GHz tror jag.

Lion Cove

Intel vill inte ens beskriva Lion Cove som "en specifik mikroarkitektur". Tydligen finns det en del "legobitar", som t.ex. SMT och storlek pÄ L2$ som kan varieras beroende pÄ anvÀndingsomrÄde.

Lunar Lake kör med en TSMC 3B "low-power" version med 2,5 MB L2$ och dÀr SMT-stöd fysiskt inte existerar. SMT-stöd tar tydligen idag 5 % extra effekt av att bara finnas (Àven om det inte anvÀnds) och ger 15 % sÀmre perf/mm^2. Det enligt Intel

https://fdn.gsmarena.com/imgroot/news/24/06/intel-lunar-lake/-1200/gsmarena_002.jpg

Xeon baserad pÄ Lion Cove kommer av allt att döma ha SMT stöd, dÀr övervÀger fördelarna. Oklart för Arrow Lake i nulÀget, men gissningen Àr att en desktop-produkt med upp till 8+16 kÀrnor lÀr ha mer vÀrde av bÀttre perf/W nÀr "halvmÄnga CPU-trÄdar anvÀnds" Àn maximal Cinebench-poÀng med SMT.

Oavsett sÄ skiljer sig Lion Cove i Arrow Lake pÄ tvÄ sÀtt frÄn den i Lunar Lake: mer L2$, 3 GB i stÀllet för 2,5 GB. Access till mer L3$ dÄ Àven E-kÀrnorna har L3$ i Arrow Lake. Det lÀr ge högre IPC, men oklart om det blir 1 % eller mer

Finns ju lÀckor som nÀmner att Lion Cove i Arrow Lake fÄr 20 % bÀttre prestanda ISO-frekven mot Raptor Cove. Men Àr i nulÀget bara en lÀcka. Det lÀr i alla fall bli mer Àn 14 % som ska var ökningen för Lunar Lake (förutsatt att dessa 14 % stÀmmer).

Skymont

Den skiljer sig rÀtt mycket mellan desktop och laptop.

Och hÀr har Intel gjort det rÀtt förvirrande med siffrorna man presterade bl.a. pÄ Computex...

38 % högre IPC för heltal och 68 % högre för flyttal Àr specifikt för Lunar Lake över LP E-cores i Meteor Lake dÄ man i bÄda fallen jÀmför E-kÀrnor som saknar L3$.

2 % högre IPC jÀmfört med Raptor Cove Àr dÀremot varianten i Arrow Lake dÀr E-kÀrnor har access till L3$...

Oavsett sÄ lÀr MT-prestanda öka rÀtt ordentligt för Arrow Lake över Raptor Lake just dÄ E-kÀrnorna blivit sÄ vÀldigt mycket starkare.

Jag fÄr inte ihop siffrorna i bilden.
Är det +5% perf/power och -15% perf/area sĂ„ borde det bli ca -10% perf/power/area.
Eller sÄ Àr det +5% perf/power och +15% perf/area sÄ borde det bli ca +20% perf/power/area.

PermalÀnk
Datavetare ★
●
Skrivet av SAFA:

Jag fÄr inte ihop siffrorna i bilden.
Är det +5% perf/power och -15% perf/area sĂ„ borde det bli ca -10% perf/power/area.
Eller sÄ Àr det +5% perf/power och +15% perf/area sÄ borde det bli ca +20% perf/power/area.

Är inte heller med pĂ„ hur de fĂ„r ihop det sista och nĂ€r jag sökte lite pĂ„ bĂ€ttre förklaring insĂ„g site:en jag anvĂ€nde som kĂ€lla för bilden hade missat den större presentation och egentligen visade den mindre intressanta slide:en.

Oklart hur man kommer fram till perf/area/effekt, den som Àr det relevanta hÀr Àr att om man fysiskt tar bort transistorerna för HT blev det +15 % perf/power jÀmfört med att ha HT tillgÀngligt i kisel, ha det aktiverat men bara anvÀnda en trÄd.

+5 % per/power Àr fallet dÀr HT Àr avstÀngt, men dÀr transistorerna fortfarande Àr var pÄ kretsen.

Orsaken att SMT överhuvudtaget Àr en bra idé Àr detta

d.v.s. anvÀnder man faktiskt HT ökar mÀngd arbete kÀrnan utför med 30 % medan effekten bara ökar 20 %.

För en laptopkrets tror jag inte det rÄder nÄgot tvivel vad som Àr bÀst. För en server-krets har SMT om inte annan den stora fördelen att det ger tvÄ "vCPU" som molnleverantörerna kan ta betalt för (en av flera orsaker varför ARM64 instanser Àr sÄ mycket mer prisvÀrd, dÀr fÄr man "riktiga" kÀrnor för pengarna och de Àr typisk ÀndÄ billigare per vCPU vid likvÀrdig prestanda).

FÄr se vad de gör i Arrow Lake. Om man nu vinner +15 % i perf/watt kÀnns det faktiskt som en no-brainer dÀr ocksÄ givet att desktop-kretsarna trots allt har 6-8 P-kÀrnor + 8-16 E kÀrnor. SÄ SMT Àr en belastning sÄ lÀnge man anvÀnder fÀrre Àn 14-24 CPU-trÄdar (d.v.s. till varje P och E kÀrna har en aktiv trÄd).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

PermalÀnk
Datavetare ★
●

DÄ det finns mycket som pekar pÄ att Qualcomms exklusivitet pÄ Windows/ARM64 tar slut under detta Är Àr det vÀldigt spÀnnande att kika pÄ vad Arm har för sig.

För om nu ryktet att Nvidia ger sig in i Windows/ARM64 marknaden under 2025, sÄ Àr kan vi vara vÀldigt sÀkra pÄ att de kommer inte göra det med en egendesignad mikroarkitektur utan det kommer vara Arms Cortex X925 (och Àr exakt den mikroarkitekturen som viskas om och Àr den man kommer anvÀnda i nÀsta server-design).

Även om Arm har slĂ€ppt X925 redan, betyder det ju bara att ritningarna för att göra en sĂ„dan CPU Ă€r klar. Första kislet med X925 förvĂ€ntas dyka upp runt oktober i Ă„r. SĂ„ för att fĂ„ en kĂ€nsla för vad den kommer prestera fĂ„r man göra lite extrapoleringar frĂ„n X4 i mobiltelefoner.

SÄ var stÄr vi? AnvÀnder man GB6 och stÀller Ryzen 8840HS mot Samsung S24 sÄ Àr ST 2483 @ 5,0 GHz mot 2240 @ 3,4 GHz. D.v.s. perf/cykel Àr ~35 % högre i Cortex X4 jÀmfört med mobile Zen 4.

Historiskt har Arms pÄstÄdda IPC-ökningar varit rÀtt nÀra sanningen. I det specifika fallet GB6 lÀr de stÀmma rÀtt exakt dÄ GB och SPEC Àr rÀtt ofta vad Arm anvÀnder nÀr de sÀtter sina IPC-ökningar.

SÄ vad sÀger man om X925?

36 % Àr inte bara rÀtt lÄngt mer Àn de 14-16 % Intel/AMD verkar mÀkta med. Man ska ocksÄ komma ihÄg att Arm slÀpper en design per 12 mÄnader, sÄ i stort sÀtt dubbelt sÄ ofta som Intel/AMD slÀpper en ny mikroarkitektur.

Kring frekvens verkar Arm fortsÀtta stanna under 4 GHz, de har sagt att X925 kan klockas upp till 3,8 GHz. Det borde lÀgga dem pÄ ett GB6 ST resultat vÀl över 3000 poÀng. D.v.s. högre Àn vad Strix Point och Lunar Lake ser ut att hamna pÄ, ocksÄ högre Àn Snapdragon X Elite!

Precis som Zen 5 kommer ökning för "AI" bli högre. I Zen 5 fall beror det pÄ att desktop-versionen gÄr till 512-bit datapath för AVX-512 (upp frÄn 256-bit i Zen 4, rÀtt sÀker de 40 % bÀttre IPC som nÀmns för Zen 5 kommer frÄn den hÀr typen av laster).

I fallet X925 kommer det frĂ„n Arms nĂ€rmaste motsvarighet till AVX-512 VNNI (Vector Neural Network Instruction), SME (Scalable Matrix Extension). Är SME som ökade resultatet för ett av GB6 AI-test med nĂ€stan 100 % mellan Apple M3 (som inte har SME) till M4 (som har SME). Det Ă€r i.o.f.s. enda testet som verkar pĂ„verkas av SME, sĂ„ totalpoĂ€ngen pĂ„verkas inte jĂ€ttemycket dĂ„ det Ă€r ett geometriskt medel.

KÀnns ocksÄ som Arm siktar förbi vad som Àr rimligt för en telefon med X925. Bara kolla pÄ mikroarkitekturen, den Àr galet "bred" Àven stÀlld mot Intels/AMDs kommande mikroarkitekturer. Och dÄ mÄste man komma ihÄg att Zen 5 gick frÄn 4-wide decode till 2x 4-wide, Lion Cove gick frÄn 6-wide till 8-wide decode och Airmont gick frÄn 2x 3-wide till 3x 3-wide. X925 Àr 10-wide!!!

Storlek pÄ L2$ Àr upp till 3 GB, det Àr större Àn alla nuvarande x86_64, större Àn Lion Cove i Lunar Lake och matchar Lion Cove i Arrow Lake! Historiskt har Arms CPUer haft mindre L2$ jÀmfört med high-end x86_64 och Apple.

Men vi lÀr se telefoner med en X925, lite lÀgre klockad bara. De behöver trots allt den för att tÀppa till hÄlet mellan Iphone och high-end Androider.

TL;DR Àr ÀndÄ att 2025 kommer Àven de som anvÀnder Arm Cortex X serien vara pÄ samma nivÄ som Intel, AMD och Qualcomm!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

PermalÀnk
Datavetare ★
●

Som jag skrev initialt, finns relativt lite officiell information kring mikroarkitektur för Zen 5. Men en sak som ÀndÄ gör att jag Àr rÀtt sÀker pÄ de förÀndringar i front-end som Àr i bilden ovan stÀmmer Àr detta frÄn AMD

Den sÀger 3 saker.

1. 2x "For front-end instructions".

Det lÀr inte referera till micro-op-cachen, den Àr kapabel till 9 uops redan i Zen 4. SÄ detta mÄste referera till decoder. Att det handlar om 2x 4-wide och inte en 8-wide Àr frÄn

"Parallel dual front-end..."

ÄndĂ„ intressant hĂ€r att Intel gick med 8-wide i Lion Cove. 8-wide Ă€r mer effektiv i att den oftare kan ge >4 instruktioner Ă€n vad 2x 4-wide kan. Men Ă€ndĂ„ lite frĂ„getecken varför dĂ„ det kostar rĂ€tt mycket med en sĂ„ bred decoder pĂ„ x86 + de verkar ju vĂ€ldigt nöjda med den dual-decoder som Gracemont anvĂ€nder.

2. 2x "L2 to L1 and L1 to FP".

Det sÀger mest att man anpassat per-core cache sÄ den kan hantera 512-bit databredd. Mycket möjligt att mobile Zen 5 inte har denna förÀndring dÄ man verkar stanna pÄ 256-bit databredd dÀr (samma som Zen 4).

3. 2x "AI and AVX512 Throughput"

Det Àr i praktiken "vi har gÄtt till 512-bit intern databredd" i klartext.

FÄr se hur detta pÄverkar effekt och frekvens nÀr AVX-512 anvÀnds. Första generationerna av Intel CPUer med 512-bit intern databredd fick klocka ned sig rÀtt ordentligt. Men sett spekulation kring att Intel nog gick dit förtidigt, de hade behövt vÀnta nÄgon nod till sÄ man kunde ha tillrÀckligt med transistorer för att hantera detta.

SÄ gissar att det kommer fungera fint i Zen 5, det fungerar ju bra i Xeons numera (medan man tog bort AVX-512 stödet i desktop/mobile).

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

PermalÀnk
Medlem ★
●

"Kring frekvens verkar Arm fortsÀtta stanna under 4 GHz, de har sagt att X925 kan klockas upp till 3,8 GHz. Det borde lÀgga dem pÄ ett GB6 ST resultat vÀl över 3000 poÀng. D.v.s. högre Àn vad Strix Point och Lunar Lake ser ut att hamna pÄ, ocksÄ högre Àn Snapdragon X Elite!"

Har bara sett GB6 ST resultat över 3000 pÄ Strix Point

https://browser.geekbench.com/v6/cpu/6838863 9700X ST = 3312

https://browser.geekbench.com/v6/cpu/6839306 9600X ST = 3284

SÄ presterar de ca 10% bÀttre Àn förvÀntat?

Visa signatur

I've somehow been WASDing my whole life

13th Intel 8P@6GHz E-cores off Kraken X73 360mm DDR5 m.2@7000MB/sek Gigabyte Z690
Alltid över AMD 3D med överklocking i fakefikans (swefaker) grafer med intel :)

PermalÀnk
Hedersmedlem ★
●
Skrivet av Snabbt_o_HĂ„rt:

"Kring frekvens verkar Arm fortsÀtta stanna under 4 GHz, de har sagt att X925 kan klockas upp till 3,8 GHz. Det borde lÀgga dem pÄ ett GB6 ST resultat vÀl över 3000 poÀng. D.v.s. högre Àn vad Strix Point och Lunar Lake ser ut att hamna pÄ, ocksÄ högre Àn Snapdragon X Elite!"

Har bara sett GB6 ST resultat över 3000 pÄ Strix Point

https://browser.geekbench.com/v6/cpu/6838863 9700X ST = 3312

https://browser.geekbench.com/v6/cpu/6839306 9600X ST = 3284

SÄ presterar de ca 10% bÀttre Àn förvÀntat?

Strix point Àr för bÀrbara.
https://www.tomshardware.com/pc-components/cpus/amd-unwraps-r...

Granite Ridge Àr kodnamnet för 9700X osv.

Visa signatur

Asus ROG STRIX B550-F / Ryzen 5800X3D / 48 GB 3200 MHz CL14 / Asus TUF 3080 OC / WD SN850 1 TB, Kingston NV1 2 TB + NAS / Corsair RM650x V3 / Acer XB271HU (1440p165) / LG C1 55"
NAS: 6700K/16GB/Debian+ZFS | Backup (offsite): 9600K/16GB/Debian+ZFS

PermalÀnk
Medlem ★
●
Skrivet av Thomas:

Strix point Àr för bÀrbara.
https://www.tomshardware.com/pc-components/cpus/amd-unwraps-r...

Granite Ridge Àr kodnamnet för 9700X osv.

Tack, sÄ dÄ kommer det av den högre frekvensen 5,57GHz pÄ desktop vs 5,1GHz pÄ laptop

Visa signatur

I've somehow been WASDing my whole life

13th Intel 8P@6GHz E-cores off Kraken X73 360mm DDR5 m.2@7000MB/sek Gigabyte Z690
Alltid över AMD 3D med överklocking i fakefikans (swefaker) grafer med intel :)

PermalÀnk
Datavetare ★
●

Visade sig att gissningarna för Zen 5 var helt OK.

Stod innan >=8 uops för dispatch och retire dÄ Zen 4 hade 8 uops och det lÀr inte minska. AMD har nu sagt att det Àr samma i Zen 5.
Sen sa man ocksÄ ca "40 % more instructions in flight", sÄ ca 448 instruktioner i Zen 5 (upp frÄn 320 i Zen 4).

Tror ocksÄ man kan dra en del slutsatser frÄn denna bild

AMD sÀger att 27 % av IPC-ökningen kommer frÄn "data bandwidth", vilket i praktiken Àr det som relaterar till 512-bit intern databredd för AVX-512.

Det lÀr tyvÀrr inte ge nÄgot för icke AVX-512 laster, vilket ocksÄ stÀmmer med att sÄdana har mer legat pÄ 8-12 % IPC ökning Àn nÄgra 16 %.

AMD kvantifierade nu ocksÄ förvÀntad ökning för det som drar stor nytta av AVX-512, t.ex. AI. DÀr ska Zen 5 vara ~32 % snabbare jÀmfört med Zen 4, vilket Àr inkluderat i deras 16 % siffra.

Sist: spekulationen att mobil-versionen av Zen 5 stannar pÄ 256-bit inter databredd stÀmmer. SÄ de deltest i GB6 som anvÀnder AVX-512 och som uppfört sig olika stÀlld mot Zen 4 visade precis det de borde visa

Zen 5 illustrationen Àr uppdaterad med denna ny info, egentligen bara >= 8 uops som Àndrats till 8 uops samt inflight satt till 448 (i stÀllet för >320).

Nu ÄterstÄr att se hur P-core i Arrow Lake stÄr sig i Zen 5. Sett till mikroarkitektur ska den ha högre IPC.

Men precis som Ian Cutress frÄga i intervju med Zen 5 chefsarkitekt "varför bara 16 % IPC ökning trots rÀtt stora förÀndringar" finns det inget som pekar pÄ att Lion Cove heller kommer nÄgon direkt stor ökning. Den blir mer Àn 14 % (för det verkar den vara i Lunar Lake och Lion Cove i Arrow Lake har bl.a. mer L2$ och mer L3$), men lÀr inte bli mer Àn nÄgra procentenheter.

Inget som kommer i nÀrheten av vad Arm mÀktade med i Cortex X925!!

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

PermalÀnk
Medlem ★
●
Visa signatur

I've somehow been WASDing my whole life

13th Intel 8P@6GHz E-cores off Kraken X73 360mm DDR5 m.2@7000MB/sek Gigabyte Z690
Alltid över AMD 3D med överklocking i fakefikans (swefaker) grafer med intel :)

PermalÀnk
Datavetare ★
●

Nu finns en hel del tester av Zen 5 i form av Strix Point. En viktig sak att komma ihÄg Àr att Zen 5 Àr första generationen Ryzen dÀr AMD valt att inte anvÀnda identisk mikroarkitektur över hela spektrat.

Det mest signifikanta som skiljer mobile Zen 5 frÄn övriga Zen 5 Àr att den förra kör vidare med "dubbel-pumpad 256-bit AVX-512" medan de senare kör 512-bit AVX-512. I praktiken pÄverkar det bara sÄdant som anvÀnder AVX-512.

AMD nÀmner detta val hÀr ("Support configurable FP512/256 datapath")

DÄ denna trÄd handlar om mikroarkitektur och dÄ Strix Point Àr en mobilplattform tittar jag bara pÄ enkeltrÄd-tester. NÀr bara en kÀrna anvÀnds Àr inte effektbudget relevant och kretsen kommer i praktiken köra den aktiva CPU-kÀrnan pÄ maximal frekvens, nÄgot som gör det möjligt att uppskatta förÀndring av IPC.

De flesta Zen5-lÀckor handlade om Geekbench 6. GB startade som en rÀtt usel benchmark, men GB6 Àr faktiskt en av de bÀttre benchmarks man idag kan hitta för att svara pÄ frÄgan "hur snabb Àr SKU X i genomsnitt".

För de som ÀndÄ tvivlar pÄ GB6, AnandTech testade en rad saker inklusive SPEC2017 (de-facto benchmark för servers) och Cinebench 2024. Zen 4 Àr med i form av 7940HS, maximalfrekvens pÄ 5,2 GHz medan Zen 5 i AI 9 HX 370 toppar pÄ 5,1 GHz. D.v.s. strax under 2 % skillnad i frekvens till fördel Zen 4.

SPEC2017

SPEC2017 visar rÀtt mycket exakt samma sak som GB6, man fÄr lite mer insyn i heltal- vs flyttals-split.

IPC-ökningen för heltal Àr bara ~2 %, medan den Àr ~16 % för flyttal. Zen 5 lyckas till och med passera M3 i flyttal med 2 %, den Àr dock slagen med 39 % i heltal (som för de flesta Àr lÄngt viktigare).

Detta borde döda en annan myt om GB6, att det skulle gynna Apple. SPEC2017, en serverbenchmark, visar pÄ betydligt större fördel för Apple Àn vad GB6 gör.

Zen5 har en hel del förÀndringar mot Zen4, och likt GB6 visar Àven SPEC2017 att Zen5 i vissa fall tyvÀrr blivit lÄngsammare Àn Zen4. Positiva Àr ÀndÄ att den Àr snabbare i genomsnitt!!!

Office

Tittar bara pÄ Word (primÀrt heltal) och Excel (blandning heltal/flyttal). HÀr Àr faktiskt Zen 4 konsekvent snabbare...

Cinebench 2024

Denna vÀldigt populÀra benchmark fokuserar primÀrt pÄ flyttal, och hÀr Àr Zen5 9 % snabbare mot Zen4 nÀr man justerar för frekvens.

Och igen, GB6 betydligt mindre vÀlvilligt instÀlld till M3 Àn rÀtt mycket annat: M3 Àr 27 % snabbare Àn Zen5 i CB2024.

TL;DR
Zen5 verkar i praktiken vara en vÀldigt liten förbÀttring i IPC över Zen4 för heltal, i vissa fall till och med en regression mot Zen4.

2 % IPC ökning i SPECInt 2017
16 % IPC ökning i SPECFp 2017
9 % IPC ökning i CB2024

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

PermalÀnk
Datavetare ★
●

VÀldigt bra summering av förÀndringar frÄn Zen 4 -> Zen 5

Totalt sett rÀtt stora förÀndringar.

Vi vet redan att Lion Cove pÄ flera sÀtt kommer ha Ànnu större förÀndringar. Om det visar sig att Àven IPC ökningen frÄn Raptor Cove till Lion Cove blir i nivÄ med den frÄn Zen 4 till Zen 5 Àr det kanske dags att börja fundera om det kanske finns rÀtt hÄrda begrÀnsningar kring hur mycket "instruction-level parallelism" (det som möjliggör högre IPC) det faktiskt finns kvar att utnyttja för x86.

Finns ingen lika bra översikt för Raptor Cove -> Lion Cove, men dessa innehÄller en del av motsvarande information

Zen 5 och Lion Cove kommer pÄ pappret ha rÀtt snarlik kapacitet pÄ en rad omrÄden.

Intel har redan publicerat specifikationen för APX (Advanced Performance Extensions), en rejÀlt förÀndring av x86 ISA. Kanske inte gÄr att hoppas pÄ allt för mycket innan APX dels finns pÄ plats, dels faktiskt anvÀnds av applikationer (krÀvs omkompilering av program för att de ska kunna dra nytta av APX). Fast i det lÀget: varför inte bara byta till ARM64?

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer