De fleste tekniske og naturvidenskabelige områder er i rivende udvikling efter fremkomsten af bredt tilgængelige AI-værktøjer. Det gælder især inden for bioteknologi, hvor AI-modeller driver gennembrud inden for lægemiddelopdagelse, præcisionsmedicin, genredigering, fødevaresikkerhed og mange andre forskningsområder.
Et underområde er proteomics – storskala studier af proteiner - hvor massive mængder proteindata samles i databaser, som man kan sammenligne en prøve op imod. Disse databaser gør det muligt for forskere at finde ud af, hvilke proteiner - og dermed mikroorganismer - der er til stede i en prøve. De gør det muligt for en læge at diagnosticere sygdomme, overvåge effektiviteten af en behandling eller identificere patogener i prøven fra en patient.
Selv om disse værktøjer er meget nyttige og effektive, er der grænser for, hvad de kan præstere, siger Timothy Patrick Jenkins, lektor ved DTU Bioengineering og korresponderende forfatter på en ny, videnskabelig artikel i Nature Machine Intelligence:
"For det første er der ingen databaser, der indeholder alt, så du skal vide, hvilke databaser der er relevante for netop dine behov. Dernæst er dybe søgninger meget tidskrævende og kræver meget computerkraft. Og endelig er det næsten umuligt at identificere proteiner, som ikke er blevet registreret endnu."
Derfor har nogle grupper arbejdet på såkaldte 'de novo-sekventeringsalgoritmer', som forbedrer nøjagtigheden og sænker de stigende beregningsomkostninger ved de stadigt voksende databaser. Men ifølge Timothy Patrick Jenkins og hans kolleger fra DTU, Delft University i Holland og det britiske AI-firma InstaDeep er disse sekventeringsalgoritmers præstationer fortsat 'undervældende'.
Bedre end state-of-the-art
I den nye artikel præsenterer forskerne to nye AI-modeller som kan hjælpe forskere, læger og kommercielle virksomheder med at finde præcis de oplysninger, de har brug for i de meget store datamængder. Modellerne hedder InstaNovo og InstaNovo+ og er tilgængelige for forskere via InstaDeeps hjemmeside (se faktaboks).
"Samlet set overgår vores modeller state-of-the-art og er betydeligt mere præcise end de værktøjer, der er tilgængelige i dag. Desuden viser vi i artiklen, at vores modeller ikke kun virker i forhold til et bestemt forskningsområde. Vores værktøjer kan tværtimod understøtte betydelige fremskridt inden for alle områder, der involverer proteomics," siger Kevin Michael Eloff, forskningsingeniør hos InstaDeep og medforfatter til artiklen.
For at vurdere anvendeligheden af deres modeller har forskerne trænet og testet dem på flere specifikke opgaver inden for store forskningsområder.
Én undersøgelse blev udført på sårvæske fra patienter med venøse bensår. Da venøse bensår er notorisk vanskelige at behandle og ofte ender med at blive kroniske, er det afgørende for behandleren at vide, hvilke mikroorganismer - f.eks. bakterier - der er til stede. AI modellerne kunne kortlægge ti gange så mange sekvenser som en databasesøgning, og herunder påvise tilstedeværelsen af f.eks. E. coli og Pseudomonas aeruginosa. Sidstnævnte er en multiresistent bakterie.
En anden undersøgelse blev udført på små stykker protein, kaldet peptider, der vises på overfladen af celler. De hjælper immunsystemet med at genkende infektioner og sygdomme som f.eks. kræft. InstaNovo-modellerne identificerede tusindvis af nye peptider, som ikke blev fundet ved hjælp af traditionelle metoder. I personaliseret kræftbehandling, hvor man arbejder med at styrke og ruste immunforsvaret til selv at bekæmpe kræften – den korte betegnelse er immunterapi - er disse peptider alle potentielle angrebspunkter.
"Vores test af modellerne på komplekse tilfælde, hvor der f.eks. er ukendte proteiner til stede, eller hvor vi ikke har nogen forudgående viden om de involverede organismer, viser at de kan forbedre vores forståelse betydeligt. Det er helt åbenlyst, at det lover godt for biomedicin, da det kan forbedre identifikationen af hvad der er til stede i vores mikrobiom samt forbedre vores indsats inden for personlig medicin og cancerimmunologi," siger Konstantinos Kalogeropoulos, medforfatter og adjunkt ved DTU Bioengineering.
Artiklen indeholder yderligere seks sådanne cases, der viser, hvordan disse modeller forbedrer terapeutisk sekventering, opdager nye peptider, opdager urapporterede organismer og forbedrer proteomics-søgninger betydeligt. Konsekvenserne af modellernes resultater rækker således langt ud over lægevidenskaben, siger Timothy Patrick Jenkins:
"Hvis man ser på det fra et rent teknisk, videnskabeligt perspektiv kan vi med disse værktøjer forbedre vores forståelse af den biologiske verden som helhed - ikke alene inden for sundhedsområdet, men også i industrien og den akademiske verden. Det gælder inden for alle områder, der bruger proteomics - det være sig plantevidenskab, veterinærvidenskab, industriel bioteknologi, miljøovervågning eller arkæologi – at vi kan få indsigt i proteinlandskaber, der har været utilgængelige indtil nu."