Egentligen är det inte helt relevant att jämföra summan av TOPS. Vad man kan göra med NPU är inte helt jämförbart vad som är möjligt med GPU/CPU.
NPU kan bara användas för inference, den har också rätt mycket restriktioner kring vilka dataformat som kan användas. NPU är bara vettig för att använda färdiga modeller och modellerna behöver formateras på ett specifikt sätt. Ovanpå det är det typiskt så att man kör "komprimerade" (quantized) modeller (är därför INT8 fungerar, man "komprimerar" FP32 modell till INT8).
iGPUer är egentligen inte jättemycket sämre än NPU sett till perf/W, även om den är sämre. Men en iGPU används ju till mycket annat, så finns orsaker till varför man kanske inte vill använda GPU till AI.
Fördelen med GPU är att den stödjer långt fler format och framförallt kan den även användas till träning av modeller (relevant för utvecklare, men inte kanske inte så relevant för slutanvändare).
Så en mer relevant jämförelse är nog: Lunar Lake, Strix Point och Snapdragon X har ur alla praktiska hänseenden samma råprestanda via NPU. 48, 50 och 45 TOPS är ur alla praktiska hänseende samma sak, det lär vara större varians från saker som kvalité på programvara.
Och för Intels del verkar de ha fördelen att just nu ha bäst stöd via programvara. De stödjer flest programvaror, har flest LLMs och andra modeller färdigpakterade för deras NPU etc. Om något har Nvidia visat att i slutändan är det programvara som avgör.
Om man behöver använda en "thin-and-light" laptop som utvecklare verkar ju Battlemage iGPU vara en trevlig bekantskap. Som @Sidde nämner kan det lätt bli flaskhals mot RAM, men så länge som man är beräkningsbegränsad (vilket man absolut kan vara, beror mycket på hur modellen ser ut) så skalar det normalt väldigt väl med "rå beräkningskraft".
Som "vanlig" användare kan man nog vilja "offra" GPUn till LLMs i vissa lägen förutsatt att den presterar bättre än NPU, med Lunar Lake har man då möjlighet till ~40 % högre prestanda om man kör på iGPU i stället för NPU.
Som utvecklare kan det också vara trevligt att ha 67 TOPS ihop med upp till 32 GB "VRAM" i en laptop. Visst är M3 Max långt snabbare och kan ha upp till 128 GB, men är också en klart högre prislapp (en 128 GB M3 Max startar väl på runt 60k).
Nu vet vi inte hur bra/dålig Qualcomms GPU är till detta, men givet att de inte alls nämnt den kan man nog utgå från att den, likt iGPU RDNA3.5, saknar "tensor-cores" (vilket är vad XMX är i Battlemage) och "TOPS" i den GPUn är rimligen i 20-30 TOPS nivån.