2025-06-19_downtime_incident#

Sammanfattning#

Den 19 juni 2025 inträffade ett avbrott i ML-träningspipen på grund av en delvis omstart av tjänsten. Detta ledde till att inga nya ML-träningsjobb kördes mellan 2025-06-18 och återstarten, trots att data fortsatte att samlas in. När träningspipen återupptogs tränades modellerna på en betydligt större mängd data än tidigare, vilket kan ha påverkat modellernas R²-värden och prediktionsbeteende.

Vad hände?#

Datum/tidpunkt: 2025-06-19 00:00
Påverkan: Inga nya ML-träningsjobb kördes under perioden 19–22 juni. Fix implementerad och alla containrar omstartades 21:27 (svensk tid) den 22:a juni.
Orsak: ML-schemaläggaren (APScheduler) kördes in-process i FastAPI-containern. Vid omstart av containern förlorades alla schemalagda jobb och missade körningar ignorerades på grund av en kort misfire_grace_time.
Konsekvens: Ingen ny träningsdata genererades för graferna. När tjänsten återupptogs tränades modellerna på all ackumulerad data, vilket kan ha gett annorlunda modellbeteende och R²-värden.

Tekniska detaljer#

Felet upptäcktes genom avsaknad av data i grafen och bekräftades via loggar och analyser av träningsjobbens körhistorik.
Hälsokontroll-API och loggning har förbättrats för att snabbare upptäcka liknande problem i framtiden.

Åtgärder#

ML-schemaläggaren har flyttats till en extern, persistent scheduler (systemd på underliggande vm) enligt best practice.
Hälsokontroll och övervakning har införts.
Incidenten är markerad i linjediagrammet med en callout och länk till denna rapport.

Rekommendationer#

Fortsätt övervaka träningspipen och loggar för att snabbt upptäcka framtida avbrott.
Utvärdera modellernas prestanda efter avbrottet och notera eventuella förändringar i R² eller prediktionsbeteende.