Nu kommer Nvidia RTX IO – snabbar upp laddtider

Permalänk
Medlem
Skrivet av Sveklockarn:

Man får byta från Gdeflate till Zlib, finns bildträffar via Google med/utan GPU-dekompression om man inte orkar leta igenom forum.
Det som är svårt att förstå är att det aldrig nämnts i kontexten DirectStorage i något material jag råkat på.

Edit: Här är två länkar jag skrapade fram.

DirectStorage/BypassIO och varför det blir snabbare på Windows:
https://hothardware.com/news/ms-directstorage-12-update

Nvidia skriver faktiskt inte att RAM skippas på vägen, visar det sig:
https://www.nvidia.com/en-us/geforce/news/rtx-io-for-geforce-...

Det här är nog ännu ett fall där teknologier blandas ihop baserat på liknande Nvidia-varumärken.

Bandbredden i RAM är inget problem, och bandbredden över PCIe 4.0 överträffar SSDs med råge, så vinsten med DirectStorage är alltså en optimering av hur datan hanteras av Windows samt att man inte utför dekompression på CPU.

Menade inte i denna tråden utan i tråden som du länkade till för BulkLoadDemo. Har bildgooglat lite nu och av de få som inte kom från en intern icke-släppt version av Microsoft så hittade jag dessa:

Så 88% förbättring, dock i praktiken 0,54s vilket knappt märks. Dock är det ju enbart på en liten avokado så vi får ju se hur det blir i verkliga spel med betydligt mer resurser om det skalar eller ej. Tyvärr framgår det ju inte heller av testen om fördelen här verkligen är att GPU:n är så pass mycket snabbare på deflate mot CPU:n eller om fördelen är att det är så pass mycket mindre data som måste kopieras från RAM till VRAM.

Ja då kanske du inte varit så aktiv i div trådar, forum och YT som en annan för det finns miljarder med människor där ute som är fast övertygade om att DirectStorage 1.2 skulle vara just att GPU:n kunde läsa direkt från NVMe, att då RTX4090, som varande nVidias flaggskepp på konsumentsidan, helt saknar P2P är ju en spik i den kistan. Dvs det där handlade enbart om att rätta till den missuppfattningen, inget annat.

Vinsten med det handlar då inte direkt om bandbredden över PCIe bussen utan mer om latensen över att först läsa in till RAM för att sedan kopiera till VRAM vilket t.ex konsoler som PS5 slipper, och att just PS5 slipper det är säkert också en källa till varför folk har missuppfattat detta.

Visa signatur

|Ryzen 5800x3d|RX 7900XTX Hellhound|Asus Prime X370 Pro|32GiB Corsair 2400MHz CL16 Vengeance|Corsair HX1000i|Fractal Define R5|LG 45GR95QE|Corsair K100|Razer DeathAdder V3 Pro|Ubuntu 23.10|

Permalänk
Medlem
Skrivet av F.Ultra:

Menade inte i denna tråden utan i tråden som du länkade till för BulkLoadDemo. Har bildgooglat lite nu och av de få som inte kom från en intern icke-släppt version av Microsoft så hittade jag dessa:

https://ossan-gamer.net/wordpress/wp-content/uploads/2023/01/Pasted-86-445x300.jpg
https://ossan-gamer.net/wordpress/wp-content/uploads/2023/01/Pasted-86-1-500x293.jpg

Så 88% förbättring, dock i praktiken 0,54s vilket knappt märks. Dock är det ju enbart på en liten avokado så vi får ju se hur det blir i verkliga spel med betydligt mer resurser om det skalar eller ej. Tyvärr framgår det ju inte heller av testen om fördelen här verkligen är att GPU:n är så pass mycket snabbare på deflate mot CPU:n eller om fördelen är att det är så pass mycket mindre data som måste kopieras från RAM till VRAM.

Ja då kanske du inte varit så aktiv i div trådar, forum och YT som en annan för det finns miljarder med människor där ute som är fast övertygade om att DirectStorage 1.2 skulle vara just att GPU:n kunde läsa direkt från NVMe, att då RTX4090, som varande nVidias flaggskepp på konsumentsidan, helt saknar P2P är ju en spik i den kistan. Dvs det där handlade enbart om att rätta till den missuppfattningen, inget annat.

Vinsten med det handlar då inte direkt om bandbredden över PCIe bussen utan mer om latensen över att först läsa in till RAM för att sedan kopiera till VRAM vilket t.ex konsoler som PS5 slipper, och att just PS5 slipper det är säkert också en källa till varför folk har missuppfattat detta.

delen / hela = 0.61 / 1.15 = 53% av det hela, eller en 47% förbättring, inte 88%

En annan jämförelse hade ju varit att jämföra okomprimerat också, mindre cpu-last men mer data att ladda

Och om cpu ska packa upp så måste ju allt gå via ramminne och ta trådar från annat. Direkt ssd->vram borde ju vara bäst

Nvidias lösning byter bandbredd mot beräkningscykler på grafikkortet. Jag tror inte det borde göra så stor skillnad om man jämför direct storage direkt mot detta

Permalänk
Medlem
Skrivet av F.Ultra:

Så 88% förbättring, dock i praktiken 0,54s vilket knappt märks.

Jo, som jag berörde tidigare är åsikten att det inte märks skillnad baserat på att du inte är någon gamer, annars är det omöjligt att ha nära 100% CPU-belastning utan att samtidigt ha en helt statisk laddskärm i ett spel.

Permalänk
Medlem
Skrivet av medbor:

delen / hela = 0.61 / 1.15 = 53% av det hela, eller en 47% förbättring, inte 88%

En annan jämförelse hade ju varit att jämföra okomprimerat också, mindre cpu-last men mer data att ladda

Och om cpu ska packa upp så måste ju allt gå via ramminne och ta trådar från annat. Direkt ssd->vram borde ju vara bäst

Nvidias lösning byter bandbredd mot beräkningscykler på grafikkortet. Jag tror inte det borde göra så stor skillnad om man jämför direct storage direkt mot detta

Räknade på bandbredden, dvs 7,55GB/s -> 14,20GB/s

Skrivet av Sveklockarn:

Jo, som jag berörde tidigare är åsikten att det inte märks skillnad baserat på att du inte är någon gamer, annars är det omöjligt att ha nära 100% CPU-belastning utan att samtidigt ha en helt statisk laddskärm i ett spel.

Om det ändå fanns processorer med flera kärnor :), vi ser ju inte lasten hos GPU:n här heller och i tråden med koden i så skriver många att deras GPU klockar ner när de kör detta test av någon anledning. Framgår inte heller hur länge som CPU:n var lastad tiull 99%, troligen var den det under den senare delen av de där 0,54s

Visa signatur

|Ryzen 5800x3d|RX 7900XTX Hellhound|Asus Prime X370 Pro|32GiB Corsair 2400MHz CL16 Vengeance|Corsair HX1000i|Fractal Define R5|LG 45GR95QE|Corsair K100|Razer DeathAdder V3 Pro|Ubuntu 23.10|

Permalänk
Medlem
Skrivet av F.Ultra:

Räknade på bandbredden, dvs 7,55GB/s -> 14,20GB/s

Med nästan 100 gånger belastningen på CPU, ja.

Skrivet av F.Ultra:

Om det ändå fanns processorer med flera kärnor :), vi ser ju inte lasten hos GPU:n här heller och i tråden med koden i så skriver många att deras GPU klockar ner när de kör detta test av någon anledning. Framgår inte heller hur länge som CPU:n var lastad tiull 99%, troligen var den det under den senare delen av de där 0,54s

Jo, gamingburkar idag har i snitt sex kärnor (eller 6 st P-kärnor om det är Intel). Det finns även massor av benchmarks från de senaste fem åren eller så som påvisar att fyrkärniga CPUer uppvisar betydande prestandatapp oavsett att det är samma arkitektur och klockfrekvens. Det troligaste är att siffran för CPU-belastning som redovisas i det programmet är total belastning på CPUn eftersom det körs på Windows.

Spel är en realtidsapplikation där hela vitsen går förlorad om spelet börjar hacka för att CPUn blir för upptagen för att hinna med alla andra sysslor, så kunskaper från Linux-världen och datacenter (om än intressanta) är nog nära på helt värdelösa att försöka applicera i det här sammanhanget.

Det är också som jag påpekat innan en framtida möjlighet att förbättra prestandan, inte en på/av-knapp för bra eller dålig prestanda, så det blir nog svårt att bedöma det som vare sig en framgång eller flopp idag. Det är ett framsteg sett utifrån de begränsningar som spel och speldesign dragits med i decennier däremot.

Permalänk
Medlem
Skrivet av Sveklockarn:

Med nästan 100 gånger belastningen på CPU, ja.
Jo, gamingburkar idag har i snitt sex kärnor (eller 6 st P-kärnor om det är Intel). Det finns även massor av benchmarks från de senaste fem åren eller så som påvisar att fyrkärniga CPUer uppvisar betydande prestandatapp oavsett att det är samma arkitektur och klockfrekvens. Det troligaste är att siffran för CPU-belastning som redovisas i det programmet är total belastning på CPUn eftersom det körs på Windows.

Spel är en realtidsapplikation där hela vitsen går förlorad om spelet börjar hacka för att CPUn blir för upptagen för att hinna med alla andra sysslor, så kunskaper från Linux-världen och datacenter (om än intressanta) är nog nära på helt värdelösa att försöka applicera i det här sammanhanget.

Det är också som jag påpekat innan en framtida möjlighet att förbättra prestandan, inte en på/av-knapp för bra eller dålig prestanda, så det blir nog svårt att bedöma det som vare sig en framgång eller flopp idag. Det är ett framsteg sett utifrån de begränsningar som spel och speldesign dragits med i decennier däremot.

Nja, det beror helt på hur man gör iofs (kodar just realtidsapplikationer för finansmarknaden), däremot så argumentar jag inte öht mot att detta inte fungerar eller gör någon skillnad, jag är bara mest intresserad på en teknisk nivå vart exakt de olika belastningarna ligger, dvs om de verkligen ligger i själva deflate steget eller om de mer ligger i att slippa kopiera en massa GB mellan RAM och VRAM, mestadels för att jag just nu debatterar med mig själv om jag ska orka ta mig tid att titta på att implementera GDeflate för AMD i mesa eller om jag ska vänta ut AMD/Valve till att lösa det (om de ens kommer att göra det).

Återstår att se hur det hela blir i praktiken. Håller just nu på att ladda ner Ratchet & Clank via Steam för att kolla hur laddtider mm blir på min spelrigg som har HDD och ingen GDeflate (pga RX7900xtx), dock 8/16 kärnor iom 5800x3d

Visa signatur

|Ryzen 5800x3d|RX 7900XTX Hellhound|Asus Prime X370 Pro|32GiB Corsair 2400MHz CL16 Vengeance|Corsair HX1000i|Fractal Define R5|LG 45GR95QE|Corsair K100|Razer DeathAdder V3 Pro|Ubuntu 23.10|

Permalänk
Medlem
Skrivet av F.Ultra:

Nja, det beror helt på hur man gör iofs (kodar just realtidsapplikationer för finansmarknaden),

För det är jämförbart med ett spel som körs på en begränsad x86-plattform, där upplevelsen bygger på att nya bilder hinner renderas inom loppet av några tiotal millisekunder utan stora avvikelser upp eller ner?

Skrivet av F.Ultra:

jag är bara mest intresserad på en teknisk nivå vart exakt de olika belastningarna ligger, dvs om de verkligen ligger i själva deflate steget eller om de mer ligger i att slippa kopiera en massa GB mellan RAM och VRAM,

Utan att veta någonting om det så verkar det finnas ett väldigt litet samband mellan hur kraftfull GPU som används, i jämförelse med hur stora skillnader det är av att använda de snabbaste lagringsenheterna som finns tillgängliga för konsumenter. Min amatörmässiga extrapolering är att de 1) använder en fast mängd samt relativt lite GPU-resurser för att det ska fungera likadant på så mycket av den relevanta hårdvaran som möjligt och 2) att det flyttar I/O-flaskhalsen från CPU till en enhet med en uppbyggnad som (åtminstone på Nvidia-produkter) har lediga resurser tillgängliga som inte behövs för att rendera spelets bildrutor 100% av tiden.

Det är också troligt att någon form av förändrat hårdvarustöd för att skippa RAM, och slippa latensen som uppstår av att skicka data fram och tillbaka över PCI-bussen, kommer till PC om och när DirectStorage har slagit igenom på bred front.

Skrivet av F.Ultra:

och ingen GDeflate (pga RX7900xtx)

Gdeflate är visserligen open source så det är nog inte Nvidia-exklusivt.

Permalänk
Medlem
Skrivet av Sveklockarn:

För det är jämförbart med ett spel som körs på en begränsad x86-plattform, där upplevelsen bygger på att nya bilder hinner renderas inom loppet av några tiotal millisekunder utan stora avvikelser upp eller ner?

Med tanke på att all mjukvara som jag skriver också körs på x86 (server x86 har visserligen ofta mer cache än retail x86 men har sjukt mycket lägre frekvens plus att jag inte enbart skriver servermjukvara) och har krav nere på microsekundnivå så typ ja?! Dock har jag inte kodat spel sedan 80-talet så vill inte påstå att jag kan något om hur moderna spel eller GPU:er fungerar.

Skrivet av Sveklockarn:

Gdeflate är visserligen open source så det är nog inte Nvidia-exklusivt.

Det är det men nVidia lade till det i Vulkan som en vendor extension under namnet VK_NV_memory_decompression (notera _NV_) och än så länge har inte AMD (eller Intel för den delen) lagt in något stöd för detta i sina drivrutiner (och när/om de gör det så finns risken att den hamnar under en helt annan extension), hur pass bra stöd för detta som AMD/Intel lagt in i sina DirectX12 drivisar har jag ingen som helst aning om men det kvittar ändå för just min del eftersom jag kör Directx12 via översättning (vkd3d) till Vulkan i Proton.

Trotts det och att jag kör på HDD (2xWD Red Pro WD8003FFBX i btrfs raid1c2) så har spelet iaf flytet på som en varm kniv genom smör, inte ett enda stakning någonstans, inga laddtider (förutom vid uppstart till meny såklart) och har inte sett någon som helst skillnad mot t.ex Digital Foundry:s senaste video med max settings på Win11 med RTX4090 / Core I9-12900K och viktigast en Samsung 990 PRO.

Allt i Ultra 3840x1440 240Hz (DF kör ju i 4k+rt så där finns ju en skillnad naturligtvis [dock har de ju en 4090 mot min 7900xtx också]).

Visa signatur

|Ryzen 5800x3d|RX 7900XTX Hellhound|Asus Prime X370 Pro|32GiB Corsair 2400MHz CL16 Vengeance|Corsair HX1000i|Fractal Define R5|LG 45GR95QE|Corsair K100|Razer DeathAdder V3 Pro|Ubuntu 23.10|

Permalänk
Medlem
Skrivet av ipac:

Gör dem? Det är väl ingen som ifrågasätter det.
Men RTX IO & Co handlar ju om att minska tiden det tar att uppdatera grafikminnet med texturer och annat grafikrelaterat, inte att SSD skulle vara snabbare än RAM.

men om det inte är massa texturer som specifikt behöver laddas så är det därför man ej ser så stor skillnad (med vettig hårdvara så klart) & att det dessutom inte ger så mycket bättre prestanda med en snabb m.2 mot en långsammare en vilket är det folk inbillar sig & köpt marknadsföringen rakt av visst e bra med nya ideer & tekniker men när folk köper hype utan fakta så reagerar jag MVH Arne

Visa signatur

Arne Berg

Permalänk
Medlem
Skrivet av Ase:

men om det inte är massa texturer som specifikt behöver laddas så är det därför man ej ser så stor skillnad (med vettig hårdvara så klart) & att det dessutom inte ger så mycket bättre prestanda med en snabb m.2 mot en långsammare en vilket är det folk inbillar sig & köpt marknadsföringen rakt av visst e bra med nya ideer & tekniker men när folk köper hype utan fakta så reagerar jag MVH Arne

Vad är det för fakta du pratar om här? Har du någon data på hur RTX IO/Direct storage material presterar med olika sorters SSD:er?

Permalänk
Medlem
Skrivet av ipac:

Vad är det för fakta du pratar om här? Har du någon data på hur RTX IO/Direct storage material presterar med olika sorters SSD:er?

finns massa tester där de just påpekar detta tex på toms hardware & andra tester kolla runt (inte specifikt rtx .xxxx utan microsoft storage xxxx

Visa signatur

Arne Berg

Permalänk
Medlem
Skrivet av Ase:

finns massa tester där de just påpekar detta tex på toms hardware & andra tester kolla runt (inte specifikt rtx .xxxx utan microsoft storage xxxx

Du menar att skillnaden mellan olika NVME Gen4 drivar är försumbar?

Permalänk
Medlem
Skrivet av ipac:

Du menar att skillnaden mellan olika NVME Gen4 drivar är försumbar?

ja eller tom gen 3 funkar lika bra

Visa signatur

Arne Berg

Permalänk
Medlem
Skrivet av Ase:

ja eller tom gen 3 funkar lika bra

PCWorld var av annan åsikt efter deras benchmarking:
https://www.pcworld.com/article/1486755/microsoft-directstora...

Iövrigt har jag inte undersökt ämnet nämnvärt. Lär vara beroende på mjukvara också. DF testade ju Ratchet & Clank och där verkar det som om spelet har en "hastighetsgräns" där olika "raw speed" inte tycktes göra någon skillnad (och där PC alltid är en gnutta sämre än PS5).