Delar med lite var jag har snappat upp och tolkat.
Det var tidigt tänkt och planerat att RDNA4 skulle ha mer fokus på chiplets arkitektur, alltså en ännu mer uppdelat variant än den arkitektur vi finner hos RDNA3; Men AMD märkte tidigt att de inte skulle hinna med detta så de senarelade just denna variant till RDNA5 och istället planerade in en RDNA3 liknande variant till RDNA4.
Detta är var jag har snappat upp de senaste 6+ månaderna från diverse ryktesvägar.
En av AMDs ingenjörer nämnde tidigt att de stannade vid runt 80 CU för RDNA2 då det inte kunde skala effektivt till 120 eller 100 för raster-beräkningar.
Vid ett senare tillfälle nämnde en annan ingenjör (eller liknande) att RDNA3 hade tekniskt sätt möjlighet till att gå mycket högre men de stannade vid 96 för de ville hålla sig runt $1000 prisklassen.
Så för RDNA2 var det en tekniskt begränsning att nå högre prestanda medans RDNA3 en ekonomisk begränsning.
Med tanke på rådande kretsbrist, eller kanske rättare sagt rådande "prioritering för AI produktion", så är det klokt att RDNA4 fokuseras på att tillverkas på små kretsytor och med ett liknande paketeringssätt som RDNA3 chiplet arkitektur, där det paketeras flera minnesmoduler (MCD) med en beräkningsmodul (GCD), i olika nod-storlekar.
Detta för att AMD ska kunna få upp antalet kort till marknaden i stort, och främst till den större skaran som är egentligen mer intresserad att handla i mellanklassen, och antar att det skulle hjälpa för att inte tappa kunder till Battle Mage.
Gällande RDNA5, från diverse snack från AMD intervjuer kring arkitekturer på CPU, GPU och AI sidan, samt rykten kring RDNA5 så tolkar jag att utmaningen för den planerade arkitektur som skulle ha varit RDNA4 (som senarelades till RDNA5) har varit att dela upp GCD/beräkningsdelen i ännu fler och mindre moduler.
Anledningen till den stora utmaningen, jämfört med CPU chiplets, så har GPU chiplets stora behov av att överföra stor mängd data på väldigt kort tid, om man vill "chipletifiera" raster.
Det hade krävts enorma mängder "wires", alltså kopplingar, som skulle ta allt för stor plats.
Vad deras lösning för detta skulle vara, den som verkar ta lite extra lång tid, vet jag inte än... men är nyfiken så om någon vet, dela!
Vet i.a.f. på lång sikt att photonics är en potentiell lösning för dataöverföring men idag verkar dessa bara finnas lösningar mellan chips men ej mellan chiplets i respektive chip.
En lösning, gissning från min sida, är att AMD skulle kunna bara skita i att chipletifiera raster och dela upp GCD chipleten (Graphics Compute Die) i princip till 1 fullständig Raster del och ha flera RT delar. RT beräkningar är relativt enkelt att skala med nära 100% effektivitet.
Kanske skulle kunna även plocka ut "Media engine" delen och annat smått från GCD.
Hade dock varit intressant om vi fick se någon eller några extra "AI" chiplets (inference/träning) för att agera som instegskort till deras professionella MI300 serie samt få en större community kring ROCm (AMDs motsvarighet till CUDA).