AMD Ryzen Threadripper – samlingstråd - AMD

2017-07-07 22:47

Medlem ★

Plats: Stockholm
Registrerad: Mar 2004

●

Skrivet av sAAb:

Tittat man på absolutvärden för de sju mätvärden som ger bäst ökning (föregående inlägg) för båda processor-familjerna så är de:

MULTI	1 Xeon E5-2670	2 Xeon E5-2670	Ryzen 1700	Threadripper	i7-7820X
Face Detection (Msubwindows/sec)	7,29	12,30	10,10	21,70	12,00
LLVM (functions/sec)	2,62	4,44	3,38	5,17	4,69
Lua (MB/sec)	21,70	41,00	28,00	53,00	37,70
LZMA MB/sec)	47,30	79,60	50,10	73,10	62,00
N-Body Physics (Mpairs/sec)	15,20	29,90	27,50	59,00	31,60
SFFT (Gflops)	57,30	115,80	62,00	138,70	159,80
SQLite (Krows/sec)	0,7007	1,1800	0,7047	1,4900	1,0800

Nu vet jag inte hur gamla dessa Xeon är (det står Sandy Bridge) men lite krut verkar det ju vara i Threadripper.

EDIT: Jag lade till i7-7820X för att få en modern 8-kärnig från Intel.

Gå till inlägget

Just det, testerna kan vara autentiska, allt beror på vad man skall köra för program. För en typisk hemmaanvändare gör extrem multicore föga nytta idag. Men för den som har ovan specifika behov kan det ge ett stort prestandalyft i rätt program.

Som typisk hemmaanvändare av en hemmadator ser det ut som att inget bör inhandlas innan Coffee Lake har presenterats.

Skickades från m.sweclockers.com

Visa signatur

|| R9 7950X MSI PRO X670-P WIFI 32GB-DDR5-6400c32 MSI RTX4080 Ventus 3X OC || CORE i9 12900KF MSI Z690 Tomahawk WIFI DDR4 32GB-3600c16 Gear1 TUF RTX3080 OC V2 || R7 5800X3D X570S CH8 Extreme 32GB-3800c18 Gigabyte RTX3080 GAMING OC || R9 5900X(B2) B550-F 32GB-3800c18 EVGA RTX3070 FTW Ultra || R9 3900X X470-Prime Pro 32GB-3200c16 MSI RTX2070 Super ||

Rapportera Redigera

Citera flera Citera

2017-07-08 12:00

Permalänk

sAAb

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007

●

Skrivet av Yoshman:

Det mest specifika för Threadripper är att det handlar om ett NUMA-system. Det kommer ge resultat som många kommer tycka är "fel". Har man däremot använt dual-socket system ihop med desktopprogramvara är det däremot helt naturligt.

Jämför här 1800X vs 1950X mot single socket Xeon E5-2670 och dual-socket Xeon E5-2670.

Finns väldigt lite som pekar på att 1950X resultatet är fake. Totalvärdet Geekbench ger (alla versioner) är värdelöst, däremot är de flesta deltesterna i just Geekbench 4 hyfsat användbara så ska man använda GB4 till något måste man ha resultatet för varje deltest.

Notera att även single/dual-socket Xeon E5-2670 har delfall för flertrådat där resultat är lägre med dubbelt så många kärnor. Det är helt förväntat om man förstår begränsningarna med NUMA, är rätt bra samstämmighet kring vilka deltester som har problem på Threadripper och dual-socket Xeon!

Redan tidigare var det väldigt viktigt att förstå de arbetslaster man själv jobbar med för att kunna välja "rätt" CPU. Under 2017 har detta blivit långt mycket viktigare.

Kör man Cinebench, rendering (final render), byggserver eller något annat där man i praktiken kör massor med egentligen enkeltrådade fall parallellt så är NUMA ett icke-problem (det kan till och med vara en fördel med dual-socket då det är enklare att kyla så man kan få högre absolut kapacitet).

Kör man spel, parallelliserar ett enskilt problem med t.ex. fork-join eller något annat där många trådar används men man har i grunden ett problem som ska lösas så det kommer finnas kommunikation mellan CPU-kärnor är NUMA ett riktigt "no-no" (det kommer i bästa fall inte bli långsammare, men tyvärr är det rätt ofta utfallet så första steget i att göra sitt program "NUMA-aware" är att se till att begränsa antalet trådar så man håller sig på en NUMA-zon).

Det senare fallet är något jag jobbat med under många år. Har även utvecklat ett par nya varianter av synkroniseringsmekanismer, allt kring detta handlar om att "vara snäll mot CPU-cache". En liten provsmakning kring vad som spelar roll här borde folk fått nu med Ryzen och SKL-X släppet. Intels S-serie är den klart enklaste designen att jobba med här. Spel var liksom inte optimerade för Intel, de har ett användarmönster som passar den cache-designen bäst (och det gäller alla program där trådar måste synkronisera med varandra).

SKL-X och Ryzen påminner mer om varandra i cache design, båda får också likartade problem i just spel. De är dock inte helt identisk för den här typen av problem gäller SKL-S > Ryzen CCX > SKL-X > Ryzen cross CCX > Threadripper/Intel dual-socket cross NUMA.

Gå till inlägget

Jag inser inte att Geekbench är mycket sämre än andra komposita bänkmärken. Några av Geekbenchs deltester beskrivs i http://geekbench.com/doc/geekbench4-cpu-workloads.pdf och vad vi kunde se igår så ger de halvt rimliga värden för både harmoniskt medelvärde och median. Men, självklart ger deltester en bredare bild. Men, är bara medveten om det så ser jag inga problem; jag var ju inte medveten själv.

Här testar jag reliabiliteten av NUMA-effekten på data från Geekbench, om den är reproducerbar över fler olika processor-typer. Jag har valt ut NUMA/icke-NUMA-processorer som är samtida motsvarighet med äkta antal kärnor. Jag jämför med hyperthreading för att se skillnaden. Det finns både likheter och skillnader. Det jag testat är

Intel E6600 och Q6600 https://browser.primatelabs.com/v4/cpu/compare/3320513?baseli...
Intel 1*E5-2670 och 2*E5-2670 https://browser.primatelabs.com/v4/cpu/compare/3333349?baseli...
Intel i5-7600K och i7-7700K https://browser.primatelabs.com/v4/cpu/compare/3347232?baseli...
AMD Ryzen 1700 och Threadripper https://browser.primatelabs.com/v4/cpu/compare/3350876?baseli...

Man kan här betrakta Q6600 som NUMA-variant av E6600 på samma sätt som dual Intel Xeon E5-2670 och Threadripper är dubbleringar av antalet kärnor (och trådar). Hypterthreading är ju också en dubblering av antalet trådar varför i5-7600K och i7-7700K också fick vara med. Allt har ställts relativt i7-7700K i procent. I det tredje diagrammet så ser vi NUMA/HT ställt mot sin enklare variant med halva antalet trådar, enligt ovan.

Geekbench 4 single-core relativt i7-7700K

Dold text

Geekbench 4 multi-core relativt i7-7700K

Dold text

Geekbench 4 multi-core effekt av NUMA och HT

Dold text

Man ser att dubbla Xeon och Threadripper beter sig väldigt lika i nästan samtliga benchmarks och att NUMA-effekten finns där. Däremot är den inte alls lika påtaglig, om den ens finns i Q6600 jämfört med E6600! Var man bättre förr, eller förvärras det med än flera kärnor (Amdahl/Gustafson)? Hyperthreading ger säkert en boost, som eventuellt drunknat här då i5-7600K har 3800 Mhz och i7-4200 MHz; jag hittade ingen med samma klocka. Det förklarar sannolikt varför det är så jämn förbättring, det är frekvensskillnaden vi ser.

Okej, jag måste tänka över allt det här flera gånger till, och basera ett inköp på publicerade tester, på än fler tester. Var går gränser för hur mycket information man behöver?!

EDIT: Glömde säga att jag inverterat latenserna för att högre värden skall anses bättre.

EDIT 2: Såg på https://hothardware.com/news/amd-ryzen-threadripper-1950x-16-... att man hade använt DDR4 2400 MHz för Threadripper. Vi vet sedan tidigare att Ryzen vinner mycket på snabbare minnen tack vare Infinity Fabric. Det kan säkert påverka till det positiva på många av deltesterna i Geekbench 4.

Senast redigerat 2017-07-08 13:28

Visa signatur

Rapportera Redigera

Citera flera Citera (1)

2017-07-08 14:37

Permalänk

sAAb

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007

●

Det kommer fler och fler läckor.

Som säkert en del av er har sett så har det släppts resultat från SiSoft Sandra, ett annat komposit bänkmärke som ger en (1) siffra för allt möjligt.

Från https://hothardware.com/news/amd-ryzen-threadripper-1950x-16-...

Threadripper

Dold text

Top 16 i databasen http://ranker.sisoftware.net

Dold text

Så långt ser det ju bra ut. Threadripper är rejält högre i "GOPS" än både i9-7900X och i7-6950X.

Men, den där jäveln är väl i detaljerna här åxå, men dessa saknas ju än.

EDIT: Jo, en detalj fanns ju och det var att resultaten för Threadripper var överklockade till drygt 3,9 GHz! Det går alltså överklocka! 431 GOPS för Threadripper på 3,9 GHz mot 336 GOPS för i9-7900K på 4,3 GHz. Nästa steg bli att tolka vad GOPS (GigaOperationsPerSecond) är här... och vilka deltester det är uppbyggt av samt är ett mått på. Där tror jag inte att man kan komma mycket längre just nu.

Senast redigerat 2017-07-08 16:03

Visa signatur

Rapportera Redigera

Citera flera Citera (1)

2017-07-09 00:29

Permalänk

the squonk

Medlem ★

Plats: Stockholm
Registrerad: Mar 2004

●

Ju mer jag tänker på det verkar det vettigaste att vänta på Cannonlake, då får man i alla fall en ny tillverkningsprocess med bättre egenskaper rent allmänt, så samma gamla datorer får tugga på för mig fram till runt Maj 2018 verkar det som ...

Visa signatur

|| R9 7950X MSI PRO X670-P WIFI 32GB-DDR5-6400c32 MSI RTX4080 Ventus 3X OC || CORE i9 12900KF MSI Z690 Tomahawk WIFI DDR4 32GB-3600c16 Gear1 TUF RTX3080 OC V2 || R7 5800X3D X570S CH8 Extreme 32GB-3800c18 Gigabyte RTX3080 GAMING OC || R9 5900X(B2) B550-F 32GB-3800c18 EVGA RTX3070 FTW Ultra || R9 3900X X470-Prime Pro 32GB-3200c16 MSI RTX2070 Super ||

Rapportera Redigera

Citera flera Citera

2017-07-09 09:13

Permalänk

sAAb

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007

●

Skrivet av the squonk:

Ju mer jag tänker på det verkar det vettigaste att vänta på Cannonlake, då får man i alla fall en ny tillverkningsprocess med bättre egenskaper rent allmänt, så samma gamla datorer får tugga på för mig fram till runt Maj 2018 verkar det som ...

Gå till inlägget

Kan man vänta så är det ju alltid ett alternativ. Framtiden är inte vad den har varit.

Här är 11 stycken Ryzen 1800X ställda mot en Threadripper och alla relativt i7-7820X.

Single-core

Dold text

Multi-core

Dold text

Det man ser är att det är att i7-7820X är snabbare i de flesta av single-core men att Ryzen 1800X är snabbare i de flesta multi-core deltesterna.

Det finns däremot stor variation bland enskilda 1800X som kan beror på minnen och klockning och andra parametrar, kanske främst i multi-core. 1800X-4, 1800X-9 och 1800X-10 är överklockade (3,9-4,1 GHz) men det syns tydligast på 1800X-4 som dessutom är den enda som kör Linux.

Threadripper är väldigt lik 1800X här, och vinner ett antal, där förväntat. Som @Yoshman sade, kanske färre än vad många önskar.

Man kan hoppas att det här är något tidigt exemplar där förbättringar syns bättre senare.

Visa signatur

Rapportera Redigera

Citera flera Citera (2)

2017-07-09 11:25

Permalänk

sAAb

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007

●

Här förklarar man varför Epyc (och därmed Threadripper) använder en NUMA--lösning med Infinty Fabric

https://youtu.be/aokgkxHJVYQ

Skickades från m.sweclockers.com

Visa signatur

Rapportera Redigera

Citera flera Citera

2017-07-09 13:52

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av sAAb:

Jag inser inte att Geekbench är mycket sämre än andra komposita bänkmärken. Några av Geekbenchs deltester beskrivs i http://geekbench.com/doc/geekbench4-cpu-workloads.pdf och vad vi kunde se igår så ger de halvt rimliga värden för både harmoniskt medelvärde och median. Men, självklart ger deltester en bredare bild. Men, är bara medveten om det så ser jag inga problem; jag var ju inte medveten själv.

Gå till inlägget

Geekbench 4 är ett klart fall framåt jämfört med tidigare versioner sett till vilka deltester man har med.

Problemet med det geometriska medel man beräknar är att det blir hopplöst att tolka den siffran på något sätt då GB4 innehåller väldigt olika typer av arbetslaster.

Att det är många olika typer av arbetslaster är ju verkligen tummen upp. För att ha någon nytta av den informationen måste man dock jämföra specifika tester, för om jag tänker använda min CPU till applikationer som löser ett specifikt problem med många CPU-trådar där grundproblemet inte skalar perfekt är ju testresultatet från t.ex. AES, LLVM och "Rigid Body Physics" totalt irrelevanta.

Ett stort grundproblem kvarstår dock med Geekbench 4: tummen upp för deras initiativ att skriva sitt whitepaper som kort beskriver vad alla tester gör (det dokument du länkar till). En stor tumme ned för att beskrivningarna överhuvudtaget inte beskriver hur man parallelliserat problemet i multi-tråd testerna samt nästan totalt avsaknad av vilka algoritmer som används.

Ta PDF-testet, man skapar ett PDF-dokument. Fine, men hur ser arbetslasten ut? I vissa fall är algoritmen uppenbar, t.ex. Dijkstra, SGEMM, SFFT och "Histogram Equalization", det förutsatt att man själv jobbat med fall där dessa används.

Just Dijkstra (används t.ex. av GPS-system och även spel för att beräkna optimala vägen mellan två geografiska punkter) kan nog fungera som hyfsad proxy för "problemet som har viss skalbarhet med CPU-kärnor". Men man ska inte övertolka resultatet, finns trots allt en rad saker som kan skilja sig i andra problem som råkar vara lika på just punkten "skalning med CPU-kärnor".

Skrivet av sAAb:

Här testar jag reliabiliteten av NUMA-effekten på data från Geekbench, om den är reproducerbar över fler olika processor-typer. Jag har valt ut NUMA/icke-NUMA-processorer som är samtida motsvarighet med äkta antal kärnor. Jag jämför med hyperthreading för att se skillnaden. Det finns både likheter och skillnader. Det jag testat är

Intel E6600 och Q6600 https://browser.primatelabs.com/v4/cpu/compare/3320513?baseli...
Intel 1*E5-2670 och 2*E5-2670 https://browser.primatelabs.com/v4/cpu/compare/3333349?baseli...
Intel i5-7600K och i7-7700K https://browser.primatelabs.com/v4/cpu/compare/3347232?baseli...
AMD Ryzen 1700 och Threadripper https://browser.primatelabs.com/v4/cpu/compare/3350876?baseli...

Man kan här betrakta Q6600 som NUMA-variant av E6600 på samma sätt som dual Intel Xeon E5-2670 och Threadripper är dubbleringar av antalet kärnor (och trådar). Hypterthreading är ju också en dubblering av antalet trådar varför i5-7600K och i7-7700K också fick vara med. Allt har ställts relativt i7-7700K i procent. I det tredje diagrammet så ser vi NUMA/HT ställt mot sin enklare variant med halva antalet trådar, enligt ovan.

Geekbench 4 single-core relativt i7-7700K

http://i65.tinypic.com/296hjck.png

Dold text

Geekbench 4 multi-core relativt i7-7700K

http://i67.tinypic.com/9j12dy.png

Dold text

Geekbench 4 multi-core effekt av NUMA och HT

http://i65.tinypic.com/v3esue.png

Dold text

Man ser att dubbla Xeon och Threadripper beter sig väldigt lika i nästan samtliga benchmarks och att NUMA-effekten finns där. Däremot är den inte alls lika påtaglig, om den ens finns i Q6600 jämfört med E6600! Var man bättre förr, eller förvärras det med än flera kärnor (Amdahl/Gustafson)? Hyperthreading ger säkert en boost, som eventuellt drunknat här då i5-7600K har 3800 Mhz och i7-4200 MHz; jag hittade ingen med samma klocka. Det förklarar sannolikt varför det är så jämn förbättring, det är frekvensskillnaden vi ser.

Okej, jag måste tänka över allt det här flera gånger till, och basera ett inköp på publicerade tester, på än fler tester. Var går gränser för hur mycket information man behöver?!

EDIT: Glömde säga att jag inverterat latenserna för att högre värden skall anses bättre.

EDIT 2: Såg på https://hothardware.com/news/amd-ryzen-threadripper-1950x-16-... att man hade använt DDR4 2400 MHz för Threadripper. Vi vet sedan tidigare att Ryzen vinner mycket på snabbare minnen tack vare Infinity Fabric. Det kan säkert påverka till det positiva på många av deltesterna i Geekbench 4.

Gå till inlägget

C2Q är inte NUMA! Den är inte en symmetrisk quad-core design, men det är fortfarande ett UMA-system (Uniform Memory Architecture) och inte NUMA (Non-Uniform Memory Architecture). Alla CPU-kärnor har samma kostnad mot all RAM, C2Q designen är betydligt mer jämförbar med två CCX.

R5-1400/1500X och C2Q är ur den aspekten lika, båda består av två st dual-core komponenter som delar RAM-buss men som inte delar någon nivå CPU-cache.

NUMA inför en långt starkare form av asymmetri, men om du tittar på t.ex. Dijkstra resultatet ser man att C2Q skalar något sämre än en helt symmetrisk design. Rent praktiskt är nog effekten runt en tiopotens större mellan NUMA-noder.

Ett fall med relativt låg cache-hit rate där alla kärnor använder RAM från alla NUMA-noder skulle uppföra sig väldigt mycket värre på ett system med mer än en NUMA-nod jämfört med C2Q och Ryzen. I de två senare fallen må det finnas två cache-öar, men det är fortfarande bara en RAM-ö!

Skrivet av sAAb:

Kan man vänta så är det ju alltid ett alternativ. Framtiden är inte vad den har varit.

Här är 11 stycken Ryzen 1800X ställda mot en Threadripper och alla relativt i7-7820X.

Single-core

http://i67.tinypic.com/2qnnu3k.png

Dold text

Multi-core

http://i63.tinypic.com/2hznyat.png

Dold text

Det man ser är att det är att i7-7820X är snabbare i de flesta av single-core men att Ryzen 1800X är snabbare i de flesta multi-core deltesterna.

Det finns däremot stor variation bland enskilda 1800X som kan beror på minnen och klockning och andra parametrar, kanske främst i multi-core. 1800X-4, 1800X-9 och 1800X-10 är överklockade (3,9-4,1 GHz) men det syns tydligast på 1800X-4 som dessutom är den enda som kör Linux.

Threadripper är väldigt lik 1800X här, och vinner ett antal, där förväntat. Som @Yoshman sade, kanske färre än vad många önskar.

Man kan hoppas att det här är något tidigt exemplar där förbättringar syns bättre senare.

Gå till inlägget

Gissar att något blivit vänt åt fel håll i din multi-thread graf. i7-7820X verkar faktiskt öka sin ledning över R7-1800X i multitrådfallet i (geometrisk) genomsnitt.

Tittade på några fall och i det enkeltrådade fallet ligger i7-7820X ~20 % före i enkeltrådprestanda och ~50 % före i multitrådprestanda (det då enligt GB4 aggregerade resultat).

BTW: hur tar du in data från GB-databasen in i det du gör graferna med (gissar det är R...)? Inte manuellt hoppas jag! Har ett AWK-skript som givet resultat ID printar namnet på deltesterna, ST-resultat och MT-resultat.

Ex (Edit: den som vill ha skriptet kan skicka PM)

Tar CPU-namnet som argument, vill kunna styra själv hur modellen namnges.

$ gb4cat.sh 3356333 | awk -f gb4.awk - CPU=R7-1800X
--2017-07-09 16:09:49--  https://browser.primatelabs.com/v4/cpu/3356333
Resolving browser.primatelabs.com (browser.primatelabs.com)... 23.92.21.41
Connecting to browser.primatelabs.com (browser.primatelabs.com)|23.92.21.41|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘3356333’

3356333                                        [ <=>                                                                                   ]  26.08K  --.-KB/s    in 0s

2017-07-09 16:09:50 (114 MB/s) - ‘3356333’ saved [26707]

CPU model: AMD Ryzen 7 1800X @ 3.60 GHz

R7-1800X,       AES,                            5981,           17341
R7-1800X,       LZMA,                           4634,           30406
R7-1800X,       JPEG,                           4266,           30550
R7-1800X,       Canny,                          4593,           23433
R7-1800X,       Lua,                            3041,           24416
R7-1800X,       Dijkstra,                       4476,           18457
R7-1800X,       SQLite,                         3776,           27112
R7-1800X,       HTML5 Parse,                    3435,           22140
R7-1800X,       HTML5 DOM,                      5050,           32704
R7-1800X,       Histogram Equalization,         3758,           19404
R7-1800X,       PDF Rendering,                  4135,           15642
R7-1800X,       LLVM,                           6266,           41403
R7-1800X,       Camera,                         4822,           27168
R7-1800X,       SGEMM,                          2502,           8442
R7-1800X,       SFFT,                           3657,           20254
R7-1800X,       N-Body Physics,                 4262,           32139
R7-1800X,       Ray Tracing,                    4304,           20971
R7-1800X,       Rigid Body Physics,             4266,           32118
R7-1800X,       HDR,                            4457,           29533
R7-1800X,       Gaussian Blur,                  5094,           21726
R7-1800X,       Speech Recognition,             5011,           21015
R7-1800X,       Face Detection,                 4687,           29458

Dold text

Senast redigerat 2017-07-09 16:10

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera

2017-07-09 19:11

Permalänk

sesese

Medlem ★

Plats: jönköping
Registrerad: Mar 2007

●

Någon kunnig som vet hur de gör för att Döpa om en cpu

En är en ryzen men frågan är vad den andra cpun är för någon?

Skrivet av Ratatosk:

Ser man på Intel Ryzen får bättre resultat i Compubench än AMD Ryzen.

https://forum.beyond3d.com/posts/1990528/

Gå till inlägget

Visa signatur

Ryzen 5800X ROG STRIX X570-f GAMING FlareX DDR43600 cl 14-14-14-34 EVGA FTW3 Ultra RTX 3090

Rapportera Redigera

Citera flera Citera (1)

2017-07-09 19:20

Permalänk

Ratatosk

Hjälpsam ★

Plats: Karlskoga
Registrerad: Jan 2007

●

Skrivet av sesese:

Någon kunnig som vet hur de gör för att Döpa om en cpu

En är en ryzen men frågan är vad den andra cpun är för någon?

Gå till inlägget

3D Beoynd var inne på att "Intel"maskinen var virtualiserad.
De startade alltså en virtuell maskin under en Ryzen 1700x och döpte den till Intel 1700x.

Visa signatur

Rapportera Redigera

Citera flera Citera

2017-07-09 19:47

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av Ratatosk:

3D Beoynd var inne på att "Intel"maskinen var virtualiserad.
De startade alltså en virtuell maskin under en Ryzen 1700x och döpte den till Intel 1700x.

Gå till inlägget

Tror du inte en mycket enklare förklaring är att man kör Ryzen fast med Intels OpenCL implementation?

Tittar man på "Info" tabben för "Intel® Ryzen 7 1700X Eight-Core Processor" resultatet ser man bl.a. dessa två fält

System: AMD Ryzen 7 1700X Eight-Core Processor (d.v.s. här står det AMD Ryzen...)
CL_DEVICE_VENDOR: Intel® Corporation

Tittar man däremot på det andra fallet, det som säger "AMD Ryzen 7 1700X Eight-Core Processor" så ser man
CL_DEVICE_VENDOR: AuthenticAMD

Intel har lagt en hel del krut på OpenCL stödet, både för iGPU och CPU. När jag gjorde lite jämförelser mellan Nvidia 750M, HD4600 och i7-4702HQ (d.v.s. på en 2013 års Dell XPS15) presterade ofta iGPU och CPU ungefär lika (men CPU-delen var oftast snabbast) medan 750M fick sämre resultat (trots långt högre teoretisk flyttalsprestanda för single precision). Nu verkar i.o.f.s. Nvidia skita rätt mycket i OpenCL, prestanda är långt bättre med CUDA...

När man kör Intels OpenCL paket för CPU kommer koden typiskt bli väldigt optimerad med AVX2+FMA (Ryzen stödjer båda dessa), teoretisk prestanda är faktiskt rätt hög i moderna CPUer om de kan utnyttja dessa tekniker fullt ut.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera

2017-07-09 22:44

Permalänk

sesese

Medlem ★

Plats: jönköping
Registrerad: Mar 2007

●

Skrivet av Yoshman:

Tror du inte en mycket enklare förklaring är att man kör Ryzen fast med Intels OpenCL implementation?

Tittar man på "Info" tabben för "Intel® Ryzen 7 1700X Eight-Core Processor" resultatet ser man bl.a. dessa två fält

System: AMD Ryzen 7 1700X Eight-Core Processor (d.v.s. här står det AMD Ryzen...)
CL_DEVICE_VENDOR: Intel® Corporation

Tittar man däremot på det andra fallet, det som säger "AMD Ryzen 7 1700X Eight-Core Processor" så ser man
CL_DEVICE_VENDOR: AuthenticAMD

Intel har lagt en hel del krut på OpenCL stödet, både för iGPU och CPU. När jag gjorde lite jämförelser mellan Nvidia 750M, HD4600 och i7-4702HQ (d.v.s. på en 2013 års Dell XPS15) presterade ofta iGPU och CPU ungefär lika (men CPU-delen var oftast snabbast) medan 750M fick sämre resultat (trots långt högre teoretisk flyttalsprestanda för single precision). Nu verkar i.o.f.s. Nvidia skita rätt mycket i OpenCL, prestanda är långt bättre med CUDA...

När man kör Intels OpenCL paket för CPU kommer koden typiskt bli väldigt optimerad med AVX2+FMA (Ryzen stödjer båda dessa), teoretisk prestanda är faktiskt rätt hög i moderna CPUer om de kan utnyttja dessa tekniker fullt ut.

Gå till inlägget

Menar du att man kan döpa om intel filen så den funkar på en AMD CPU och få betydligt bättre openCL prestanda? Skillnaden är om det stämmer extremt stora mellan Intels och AMDs program för OpenCL

Senast redigerat 2017-07-09 23:04

Visa signatur

Ryzen 5800X ROG STRIX X570-f GAMING FlareX DDR43600 cl 14-14-14-34 EVGA FTW3 Ultra RTX 3090

Rapportera Redigera

Citera flera Citera

2017-07-09 23:03

Permalänk

Yoshman

Datavetare ★

Plats: Stockholm
Registrerad: Jun 2011

●

Skrivet av sesese:

Menar du att man kan döpa om intel filen så den funkar på en AMD CPU och få betydligt bättre openCL prestanda?

Gå till inlägget

Finns ingen anledning att döpa om något. OpenCL är en "runtime" vars uppgift är att översätta OpenCL-kod till maskinkod för underliggande HW. Det är lite som en kompilator, fast den körs av en applikation. Shaders för GPUer fungerar på i stort sätt exakt samma sätt, d.v.s. shader-kod är generell och respektive drivare översätter ("kompilerar") den koden till GPU-maskinkod.

I fallet x86 är underliggande HW x86-assembler, i praktiken används väldigt mycket SIMD, d.v.s. SSE/AVX. Intels OpenCL implementation kolla vad CPUn implementera i form av SIMD och anpassar den genererade koden efter vad som är möjligt. Så på Atom skulle det bli SSE4, Sandy Bridge AVX och Skylake X AVX512+FMA.

Gör man samma sak på Ryzen kommer CPUn säga: jag stödjer AVX2+FMA, det är samma som Haswell, Broadwell och Skylake S/U/Y/H så inga konstigheter (ur programvarans synvinkel). Om det inte finns en explicit spärr för att Intels OpenCL implementation kräver just en Intel CPU så kommer det fungera även på Ryzen.

Visa signatur

Care About Your Craft: Why spend your life developing software unless you care about doing it well? - The Pragmatic Programmer

Rapportera Redigera

Citera flera Citera (1)

2017-07-09 23:24

Permalänk

Ratatosk

Hjälpsam ★

Plats: Karlskoga
Registrerad: Jan 2007

●

Skrivet av Yoshman:

Tror du inte en mycket enklare förklaring är att man kör Ryzen fast med Intels OpenCL implementation?

Tittar man på "Info" tabben för "Intel® Ryzen 7 1700X Eight-Core Processor" resultatet ser man bl.a. dessa två fält

System: AMD Ryzen 7 1700X Eight-Core Processor (d.v.s. här står det AMD Ryzen...)
CL_DEVICE_VENDOR: Intel® Corporation

Tittar man däremot på det andra fallet, det som säger "AMD Ryzen 7 1700X Eight-Core Processor" så ser man
CL_DEVICE_VENDOR: AuthenticAMD

Intel har lagt en hel del krut på OpenCL stödet, både för iGPU och CPU. När jag gjorde lite jämförelser mellan Nvidia 750M, HD4600 och i7-4702HQ (d.v.s. på en 2013 års Dell XPS15) presterade ofta iGPU och CPU ungefär lika (men CPU-delen var oftast snabbast) medan 750M fick sämre resultat (trots långt högre teoretisk flyttalsprestanda för single precision). Nu verkar i.o.f.s. Nvidia skita rätt mycket i OpenCL, prestanda är långt bättre med CUDA...

När man kör Intels OpenCL paket för CPU kommer koden typiskt bli väldigt optimerad med AVX2+FMA (Ryzen stödjer båda dessa), teoretisk prestanda är faktiskt rätt hög i moderna CPUer om de kan utnyttja dessa tekniker fullt ut.

Gå till inlägget

Verkar som du har rätt.
Även om din förklaring verkar troligare, är den inte lika skojig.

edit Fast det som talar för en VM är att "Intel Ryzen" saknar benchmarks av grafikkortet.

Senast redigerat 2017-07-09 23:44

Visa signatur

Rapportera Redigera

Citera flera Citera

2017-07-12 12:58

Permalänk

Ratatosk

Hjälpsam ★

Plats: Karlskoga
Registrerad: Jan 2007

●

Epyc 16 kärnor kostar från 7100 kr.
Verkar lovande för TR:s priser.
http://www.sweclockers.com/nyhet/24116-amd-epyc-listas-pa-pri...

Visa signatur

Rapportera Redigera

Citera flera Citera (4)

2017-07-12 16:20

Permalänk

sAAb

Medlem ★

Plats: Stockholm
Registrerad: Jan 2007