Proxmox - mce: [Hardware Error]: Machine check events logged

Permalänk
Medlem

Proxmox - mce: [Hardware Error]: Machine check events logged

Hej,

Har precis satt upp en Proxmox VE server och några vm's.
Alla 3 vms ligger och idlar så inte mycket belastning på varken cpu eller disk.
Och lite då och då under dagen får jag följande fel i hosten.

mce: [Hardware Error]: Machine check events logged

Jag märker inte av detta på något sätt.
En utav VM är ipfire som agerar router/brandvägg.
En är pihole och en openmediavault.

Inga utav dessa har några fel som jag märker.
Enda stället detta syns i är proxmox noden.

Jag har provat memtest under 2 dygn utan att hitta några fel där iaf.
rasdaemon visar:
root@xeon:~# ras-mc-ctl --summary
No Memory errors.

No PCIe AER errors.

No Extlog errors.

No MCE errors.

Vad tror ni kan vara fel? Inga HW errors loggade i BIOS heller.
Kan det vara kärnan som bråkar? Kan jag felsöka något mer?
Felmeddelandet känns inte speciellt specifikt.
6.5.13-3-pve

Spec:
Xeon 2697v2
128gb ecc ram
dubbla nätagg.

Total drifttid på servern är några månader endast.

/S

Permalänk
Medlem
Permalänk
Medlem

Ja har läst den. Därför jag postade rasdaemon loggen. Inga fel.
Tittar jag i journal så ser jag följande:
Apr 02 18:44:41 xeon pvedaemon[11906]: INFO: Starting Backup of VM 102 (qemu)
Apr 02 18:45:04 xeon kernel: mce_notify_irq: 10 callbacks suppressed
Apr 02 18:45:04 xeon kernel: mce: [Hardware Error]: Machine check events logged
Apr 02 18:45:04 xeon kernel: mce: [Hardware Error]: Machine check events logged
Apr 02 18:45:15 xeon pvedaemon[11906]: INFO: Finished Backup of VM 102 (00:00:34)

Alltså hände detta när jag körde att backupjobb runt den tiden.
Efter det så finns det inget mer.
Ska köra en backup till för att se om jag bringar fram felet igen...

Permalänk
Snusfri

Efter att ha läst runt lite så verkar det som att Proxmox slänger ut det där felmeddelandet fast inget är egentligen trasigt.
De flesta som har fått det har inga problem och allt rullar på som vanligt.

Visa signatur

WS: i9 13900K - 128GB RAM - 6.5TB SSD - RTX 3090 24GB - LG C2 42" - W11 Pro
LAPTOP 1: Lenovo Thinkpad E14 G5 - 16GB RAM - 512GB SSD
LAPTOP 2: Acer Swift 3 - 8GB RAM - 512GB SSD
SERVER: i5 10400F - 64GB RAM - 44TB HDD
NALLE: Pixel 9 Pro XL

Permalänk
Medlem
Skrivet av THB:

Efter att ha läst runt lite så verkar det som att Proxmox slänger ut det där felmeddelandet fast inget är egentligen trasigt.
De flesta som har fått det har inga problem och allt rullar på som vanligt.

Jo jag läste runt en hel del och jag fick den bilden också. Dock lyckades jag fånga detta nu med rasdaemon

rasdaemon: read
<...>-27034 [000] 0.000652: mce_record: 2024-04-02 19:47:04 +0200 bank=8, status= 8c00004000010090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error, mci=Corrected_error, n_errors=1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 21405ada86, addr= 1fc5c98c80, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

<...>-27034 [000] 0.000652: mce_record: 2024-04-02 19:47:04 +0200 bank=d, status= 8800004000800090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error Corrected memory read error, mci=Corrected_error, n_errors=1 memory_channel=0 ranks=5 and -1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 5229400040004000, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

<...>-27034 [000] 0.000652: mce_record: 2024-04-02 19:47:05 +0200 bank=8, status= 8c00004000010090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error, mci=Corrected_error, n_errors=1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 20406eee86, addr= 2d6b5b680, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

<...>-27034 [000] 0.000652: mce_record: 2024-04-02 19:47:05 +0200 bank=d, status= 8800004000800090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error Corrected memory read error, mci=Corrected_error, n_errors=1 memory_channel=0 ranks=5 and -1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 5229400200020000, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

<...>-27034 [000] 0.000657: mce_record: 2024-04-02 19:48:01 +0200 bank=8, status= 8c00004000010090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error, mci=Corrected_error, n_errors=1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 2140787886, addr= 25fd1c680, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

<...>-27034 [000] 0.000657: mce_record: 2024-04-02 19:48:01 +0200 bank=d, status= 8800004000800090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error Corrected memory read error, mci=Corrected_error, n_errors=1 memory_channel=0 ranks=5 and -1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 5229400100010000, mcgstatus=0, mcgcap= 1000c1d, apicid= 0
y read error Corrected memory read error, mci=Corrected_error, n_errors=1 memory_channel=0 ranks=5 and -1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 5229400100010000, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

Som jag tolkar detta så är det minnesproblem. Stämmer det?

/S

Permalänk
Medlem

Ser ut att vara kanal 0 som felar.
Sticka A1 och A2. Jag har en! reservsticka av samma modell.
Ska testa byta ut en och en så får vi se. Annars har jag kompatibla PC3L stickor
så kan jag byta ut alla

Permalänk
Snusfri

Hoppas att det löser sig.
Ser ut som på senaste loggen som att det antingen är RAM eller kontrollern på moderkortet.

Visa signatur

WS: i9 13900K - 128GB RAM - 6.5TB SSD - RTX 3090 24GB - LG C2 42" - W11 Pro
LAPTOP 1: Lenovo Thinkpad E14 G5 - 16GB RAM - 512GB SSD
LAPTOP 2: Acer Swift 3 - 8GB RAM - 512GB SSD
SERVER: i5 10400F - 64GB RAM - 44TB HDD
NALLE: Pixel 9 Pro XL

Permalänk
Medlem
Skrivet av THB:

Hoppas att det löser sig.
Ser ut som på senaste loggen som att det antingen är RAM eller kontrollern på moderkortet.

Bytte ut ena minnet men det blev bara sämre. rasdaemon rapporterade fel på minnen varje sekund
så nu är alla stickor bytta till samsung och det verkar fungera oavsett belastning på varken CPU, minne eller diskar!
Räddaren i nöden var rasdaemon som iaf visade vilken kanal felet var på.

/S

Permalänk
Medlem
Skrivet av Superthug:

Bytte ut ena minnet men det blev bara sämre. rasdaemon rapporterade fel på minnen varje sekund
så nu är alla stickor bytta till samsung och det verkar fungera oavsett belastning på varken CPU, minne eller diskar!
Räddaren i nöden var rasdaemon som iaf visade vilken kanal felet var på.

/S

Jag hade liknande/samma typ av fel på min backup server node. Den kör Proxmox i botten, en webserver å proxmox backup server som vm. Den är en athlon 5270 socket fsb1 CPU på den å efter mycket test hit och dit var jag tvungen att byta utmoderkort. Alla RAM jag provade med på detta moderkort fick hardware error channel 0. Noteras bör att jag har installerat proxmox på betydligt äldre maskiner, bara för att testa och att detta moderkort aldrig har spottat ur sig liknande fel med t.ex ubuntu server på bare metal, utan bara i Proxmox. Fick aldrig reda på varför detta var ett problem just i proxmox men maskinen fungerade felfritt före å efter med andra distros...

stav fel
Visa signatur

Fractal Design Define R6, ASUS X99a, Xeon E5-2697v3@3.5Ghz allcore, 64gb Hynix ECC REG 2133Mhz, 7900xt, 2.5gb nic

Server: Proxmox med OMV7, Teuenas och annat virtuellt: Supermicro X9SRH-7F, 64gb RAM, Xeon 2651v2, 4x10tb, 2.5gb Nic

Permalänk
Medlem
Skrivet av Gnarf:

Jag hade liknande/samma typ av fel på min backup server node. Den kör Proxmox i botten, en webserver å proxmox backup server som vm. Den är en athlon 5270 socket fsb1 CPU på den å efter mycket test hit och dit var jag tvungen att byta utmoderkort. Alla RAM jag provade med på detta moderkort fick hardware error channel 0. Noteras bör att jag har installerat proxmox på betydligt äldre maskiner, bara för att testa och att detta moderkort aldrig har spottat ur sig liknande fel med t.ex ubuntu server på bare metal, utan bara i Proxmox. Fick aldrig reda på varför detta var ett problem just i proxmox men maskinen fungerade felfritt före å efter med andra distros...

Här funkar dem nya minnen fortfarande fint.
Dem gamla där felet visade på 3 möjliga stickor så satte jag dem i en annan server en och en och körde minnestest på alla
först separat sedan alla 3 i med några fler för att få rätt minneskonf.
Inga av minnena visade tecken på fel. Kan helt enkelt vara inkompatibla minnen för moderkortet jag har då.

Permalänk
Medlem

Det är troligen ett debian problem och inte ett proxmox problem..

Visa signatur

CPU: 5800x3d
GPU: 3080
RAM: 32GB

Sluta gömma din identitet, skaffa en till istället

Permalänk
Medlem
Skrivet av hakd:

Det är troligen ett debian problem och inte ett proxmox problem..

Så kan det vara. I mitt fall har jag kört DietPi efteråt utan problem å det är också baserat på Debian. Hmmm

Visa signatur

Fractal Design Define R6, ASUS X99a, Xeon E5-2697v3@3.5Ghz allcore, 64gb Hynix ECC REG 2133Mhz, 7900xt, 2.5gb nic

Server: Proxmox med OMV7, Teuenas och annat virtuellt: Supermicro X9SRH-7F, 64gb RAM, Xeon 2651v2, 4x10tb, 2.5gb Nic

Permalänk
Medlem

ECC-RAM error är nedanför nivån av vad en linuxkärna kan styra och ställa över utan det är kompabilitetsproblem/missmatch mellan minneskontrollern och använda RAM-minne där ev. minnesträning utförd av BIOS inte hittat någon sweet-spot i timingen för hög felfrihet...

Byte till annan märke ECC-RAM visar också på beroendet och förmodligen hade annan moderkort också gett skillnad.

Vad glad att det var ECC-minne i burken som rättade felen och inte vanlig speldatormoderkort då den typen av fel hade kunna pågått länge och orsaka bitflippar i lagrad data och det kan ta väldigt lång tid innan något sådant upptäcks och en zipfil plötligt inte längre kan packas upp pga. crc-fel eller en VM-maskin som upplevs krachbenägen i vissa situationer - eller som här backup körs och förmodligen mer minne tas i anspråk under processen men den dåliga delen av RAM är annars normalt utanför working-set.