Proxmox - mce: [Hardware Error]: Machine check events logged

Permalänk
Medlem

Proxmox - mce: [Hardware Error]: Machine check events logged

Hej,

Har precis satt upp en Proxmox VE server och några vm's.
Alla 3 vms ligger och idlar så inte mycket belastning på varken cpu eller disk.
Och lite då och då under dagen får jag följande fel i hosten.

mce: [Hardware Error]: Machine check events logged

Jag märker inte av detta på något sätt.
En utav VM är ipfire som agerar router/brandvägg.
En är pihole och en openmediavault.

Inga utav dessa har några fel som jag märker.
Enda stället detta syns i är proxmox noden.

Jag har provat memtest under 2 dygn utan att hitta några fel där iaf.
rasdaemon visar:
root@xeon:~# ras-mc-ctl --summary
No Memory errors.

No PCIe AER errors.

No Extlog errors.

No MCE errors.

Vad tror ni kan vara fel? Inga HW errors loggade i BIOS heller.
Kan det vara kärnan som bråkar? Kan jag felsöka något mer?
Felmeddelandet känns inte speciellt specifikt.
6.5.13-3-pve

Spec:
Xeon 2697v2
128gb ecc ram
dubbla nätagg.

Total drifttid på servern är några månader endast.

/S

Permalänk
Medlem
Permalänk
Medlem

Ja har läst den. Därför jag postade rasdaemon loggen. Inga fel.
Tittar jag i journal så ser jag följande:
Apr 02 18:44:41 xeon pvedaemon[11906]: INFO: Starting Backup of VM 102 (qemu)
Apr 02 18:45:04 xeon kernel: mce_notify_irq: 10 callbacks suppressed
Apr 02 18:45:04 xeon kernel: mce: [Hardware Error]: Machine check events logged
Apr 02 18:45:04 xeon kernel: mce: [Hardware Error]: Machine check events logged
Apr 02 18:45:15 xeon pvedaemon[11906]: INFO: Finished Backup of VM 102 (00:00:34)

Alltså hände detta när jag körde att backupjobb runt den tiden.
Efter det så finns det inget mer.
Ska köra en backup till för att se om jag bringar fram felet igen...

Permalänk
Snusfri

Efter att ha läst runt lite så verkar det som att Proxmox slänger ut det där felmeddelandet fast inget är egentligen trasigt.
De flesta som har fått det har inga problem och allt rullar på som vanligt.

Visa signatur

WS: i9 13900K - 128GB RAM - 6.5TB SSD - RTX 3090 24GB - LG C2 42" - W11 Pro
LAPTOP 1: Lenovo Gaming 3 - 8GB RAM - 512GB SSD - GTX 1650
LAPTOP 2: Acer Swift 3 - 8GB RAM - 512GB SSD
SERVER: i5 10400F - 64GB RAM - 44TB HDD
NALLE: Pixel 7 Pro

Permalänk
Medlem
Skrivet av THB:

Efter att ha läst runt lite så verkar det som att Proxmox slänger ut det där felmeddelandet fast inget är egentligen trasigt.
De flesta som har fått det har inga problem och allt rullar på som vanligt.

Jo jag läste runt en hel del och jag fick den bilden också. Dock lyckades jag fånga detta nu med rasdaemon

rasdaemon: read
<...>-27034 [000] 0.000652: mce_record: 2024-04-02 19:47:04 +0200 bank=8, status= 8c00004000010090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error, mci=Corrected_error, n_errors=1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 21405ada86, addr= 1fc5c98c80, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

<...>-27034 [000] 0.000652: mce_record: 2024-04-02 19:47:04 +0200 bank=d, status= 8800004000800090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error Corrected memory read error, mci=Corrected_error, n_errors=1 memory_channel=0 ranks=5 and -1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 5229400040004000, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

<...>-27034 [000] 0.000652: mce_record: 2024-04-02 19:47:05 +0200 bank=8, status= 8c00004000010090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error, mci=Corrected_error, n_errors=1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 20406eee86, addr= 2d6b5b680, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

<...>-27034 [000] 0.000652: mce_record: 2024-04-02 19:47:05 +0200 bank=d, status= 8800004000800090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error Corrected memory read error, mci=Corrected_error, n_errors=1 memory_channel=0 ranks=5 and -1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 5229400200020000, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

<...>-27034 [000] 0.000657: mce_record: 2024-04-02 19:48:01 +0200 bank=8, status= 8c00004000010090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error, mci=Corrected_error, n_errors=1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 2140787886, addr= 25fd1c680, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

<...>-27034 [000] 0.000657: mce_record: 2024-04-02 19:48:01 +0200 bank=d, status= 8800004000800090, MEMORY CONTROLLER RD_CHANNEL0_ERR Transaction: Memory read error Corrected memory read error, mci=Corrected_error, n_errors=1 memory_channel=0 ranks=5 and -1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 5229400100010000, mcgstatus=0, mcgcap= 1000c1d, apicid= 0
y read error Corrected memory read error, mci=Corrected_error, n_errors=1 memory_channel=0 ranks=5 and -1, cpu_type= Ivy Bridge EP/EX, cpu= 0, socketid= 0, misc= 5229400100010000, mcgstatus=0, mcgcap= 1000c1d, apicid= 0

Som jag tolkar detta så är det minnesproblem. Stämmer det?

/S

Permalänk
Medlem

Ser ut att vara kanal 0 som felar.
Sticka A1 och A2. Jag har en! reservsticka av samma modell.
Ska testa byta ut en och en så får vi se. Annars har jag kompatibla PC3L stickor
så kan jag byta ut alla

Permalänk
Snusfri

Hoppas att det löser sig.
Ser ut som på senaste loggen som att det antingen är RAM eller kontrollern på moderkortet.

Visa signatur

WS: i9 13900K - 128GB RAM - 6.5TB SSD - RTX 3090 24GB - LG C2 42" - W11 Pro
LAPTOP 1: Lenovo Gaming 3 - 8GB RAM - 512GB SSD - GTX 1650
LAPTOP 2: Acer Swift 3 - 8GB RAM - 512GB SSD
SERVER: i5 10400F - 64GB RAM - 44TB HDD
NALLE: Pixel 7 Pro

Permalänk
Medlem
Skrivet av THB:

Hoppas att det löser sig.
Ser ut som på senaste loggen som att det antingen är RAM eller kontrollern på moderkortet.

Bytte ut ena minnet men det blev bara sämre. rasdaemon rapporterade fel på minnen varje sekund
så nu är alla stickor bytta till samsung och det verkar fungera oavsett belastning på varken CPU, minne eller diskar!
Räddaren i nöden var rasdaemon som iaf visade vilken kanal felet var på.

/S