Smitte med bakterien campylobacter sker oftest gennem vores mad og kan forårsage maveinfektioner med symptomer som kvalme, diarré og feber. De seneste år har antallet af infektioner med campylobacter været stigende. I 2023 blev der registreret over 5.000 tilfælde herhjemme.
Et vigtigt værktøj for fødevaremyndighederne i forbindelse med de sygdomsfremkaldende bakterier er det såkaldte smittekilderegnskab, som DTU Fødevareinstituttet udarbejder. Det anslår, hvor mange smittetilfælde der kommer fra hvilke dyr og fødevarer, og kan give myndighederne et fingerpeg om, hvor der skal sættes ind for at forebygge – og efterfølgende hvor virksom indsatsen har været.
Flere data at holde styr på
Smittekilderegnskabet er baseret på fødevaremyndighedernes prøver fra dyr og fødevarer og Statens Serum Instituts oplysninger om prøver fra mennesker, der er inficeret med de sygdomsfremkaldende bakterier. Princippet er, at man inddeler de fundne bakterier i forskellige genetiske undertyper og udarbejder en model baseret på de mønstre, der tegner sig.
Sådan et regnskab har man i mange år lavet for salmonella, hvor man kan ’nøjes’ med at holde øje med relativt få undertyper. Campylobacter er en mere kompleks organisme, og for at spore den præcist var det nødvendigt at sekventere, dvs. kortlægge, hele bakteriens coregenom på ca. 1.300 gener.
”Når vi går fra under 20 til 1.300 gener, bliver mængden af data selvfølgelig meget større og vanskeligere at holde styr på. Derfor fik vi for nogle år siden den tanke at bruge machine learning. Det var der endnu kun få andre, der havde prøvet,” fortæller professor Tine Hald, der leder en gruppe forskere på DTU Fødevareinstituttet med ansvar for bl.a. smittekilderegnskaber.
Specialestuderende går i gang
Maja Lykke Brinch gik som specialestuderende ved DTU i gang med at udvikle en machine learning-løsning. Hun ’fodrede’ gensekvenser for campylobacter fra forskellige dyr og fødevarer ind i en supercomputer.
”Man tager typisk 70 pct. af sit datasæt – i dette tilfælde gensekvenser af campylobacter fra flere kilder indsamlet i 2015-17 – og træner algoritmen på det. Derefter giver man den de sidste 30 pct., hvor man selv kender kilden, og ser, om maskinen kan ramme den rigtigt. Når man har en tilpas akkurat model, giver man den data fra mennesker med bakterieinfektion, hvor hverken vi eller modellen ved, hvor sygdommen stammer fra. Og modellen forudsiger så sandsynligheden for, at et smittetilfælde stammer fra en specifik fødevarekilde,” forklarer Maja Lykke Brinch, som har stået for en væsentlig del af arbejdet.
Hun er nu ph.d.-studerende på DTU og førsteforfatter på en artikel, der sammenligner forskellige regnemetoder og konkluderer, at maskinlæringsalgoritmen er den mest brugbare metode for campylobacter. Den finder de rigtige kilder i 98 pct. af tilfældene.