2025-06-19_downtime_incident#

Sammanfattning#

Den 19 juni 2025 inträffade ett avbrott i ML-träningspipen på grund av en delvis omstart av tjänsten. Detta ledde till att inga nya ML-träningsjobb kördes mellan 2025-06-18 och återstarten, trots att data fortsatte att samlas in. När träningspipen återupptogs tränades modellerna på en betydligt större mängd data än tidigare, vilket kan ha påverkat modellernas R²-värden och prediktionsbeteende.

Vad hände?#

  • Datum/tidpunkt: 2025-06-19 00:00

  • Påverkan: Inga nya ML-träningsjobb kördes under perioden 19–22 juni. Fix implementerad och alla containrar omstartades 21:27 (svensk tid) den 22:a juni.

  • Orsak: ML-schemaläggaren (APScheduler) kördes in-process i FastAPI-containern. Vid omstart av containern förlorades alla schemalagda jobb och missade körningar ignorerades på grund av en kort misfire_grace_time.

  • Konsekvens: Ingen ny träningsdata genererades för graferna. När tjänsten återupptogs tränades modellerna på all ackumulerad data, vilket kan ha gett annorlunda modellbeteende och R²-värden.

Tekniska detaljer#

  • Felet upptäcktes genom avsaknad av data i grafen och bekräftades via loggar och analyser av träningsjobbens körhistorik.

  • Hälsokontroll-API och loggning har förbättrats för att snabbare upptäcka liknande problem i framtiden.

Åtgärder#

  • ML-schemaläggaren har flyttats till en extern, persistent scheduler (systemd på underliggande vm) enligt best practice.

  • Hälsokontroll och övervakning har införts.

  • Incidenten är markerad i linjediagrammet med en callout och länk till denna rapport.

Rekommendationer#

  • Fortsätt övervaka träningspipen och loggar för att snabbt upptäcka framtida avbrott.

  • Utvärdera modellernas prestanda efter avbrottet och notera eventuella förändringar i R² eller prediktionsbeteende.