Sanne Abeln benoemd tot hoogleraar AI Technology for Life

- EN- NL
Sanne Abeln is door de Universiteit Utrecht benoemd tot hoogleraar AI Technology for Life. Abeln en haar leerstoelgroep gaan zich richten op het ontwikkelen van technologie op het gebied van kunstmatige intelligentie (artificial intelligence of AI) met als doel meer inzicht te krijgen in complexe biologische systemen, zoals cellen, organismen of ecosystem. Zo vormen Abeln en haar collega’s een brug tussen het departement Biologie en het departement Informatica van de universiteit. Abeln start op 1 april.

Op het moment vinden er grote ontwikkeling plaats op het gebied van AI. Denk maar aan ChatGPT , de ’intelligente’ chatbot die overtuigende gesprekken kan voeren en goedlopende teksten kan schrijven over bijna alle denkbare onderwerpen. ChatGPT is een AI-toepassing die getraind is met enorme hoeveelheden teksten. Aan de hand van al die teksten is ChatGPT in staat om te voorspellen welke tekst goed volgt op een vraag van de gebruiker.

Heel veel data

Ook in de biologie gebeurt op dit moment veel. Abeln: "Dankzij nieuwe methodes en technieken kunnen er heel snel heel veel nieuwe biologische gegevens verzameld worden, zoals genetische data en data over eiwitten."

Je zou dus zeggen dat al deze data gebruikt kan worden om AI-toepassingen te trainen, zodat die toepassingen voorspellingen kunnen maken over biologische onderwerpen. Maar volgens Abeln is het niet zo eenvoudig om meest krachtige AI-methoden direct toe te passen op zulke biologische data.

Want stel dat een onderzoeker een AI-model wil trainen om op basis van genetische data te voorspellen of een bepaald dier ziek wordt. De onderzoeker heeft dan gegevens nodig van grote aantallen voorbeelden van dieren van dezelfde soort, zowel van dieren die ziek zijn geworden als van dieren die niet ziek zijn geworden. Abeln geeft aan dat ’fenotypische’ kenmerken, waarneembare kenmerken zoals of een dier ziek is of niet, vaak ontbreken in datasets en dat datasets bovendien te weinig voorbeelden bevatten. Het is ook erg duur om goede en volledige datasets te creëren met genoeg voorbeelden. Abeln en haar collega’s gaan daarom op zoek naar slimme oplossingen waarmee huidige AI-algoritmes ook met minder voorbeelden kunnen worden getraind voor biologische data.

Biologische data zijn wezenlijk anders zijn dan de data waarvoor de huidige AI-toepassingen zijn ontwikkeld.

Sanne Abeln

Complexe levende systemen

Abeln benadrukt bovendien dat levende systemen heel complex in elkaar zitten. Dit betekent dat het nog niet duidelijk is hoe deze systemen eigenlijk werken. Het effect van een bepaalde mutatie in het DNA in een kankercel, kan een cel bijvoorbeeld eigenschappen geven waardoor deze sneller gaat delen. Maar voor veel types mutaties begrijpen onderzoekers nog niet wat de precieze effecten zijn op de cel en de omgeving van de cel.

Abeln: "Biologische data zijn daarom wezenlijk anders zijn dan de data waarvoor de huidige AI-toepassingen zijn ontwikkeld. Van een Engelse tekst weten we hoe die er uit hoort te zien,  maar we hebben geen intuïtief beeld van wat een bepaalde DNA-volgorde betekent. Dat maakt het lastig om in te schatten of een voorspelling van een AI betekenisvol is. Je hebt echt biologische expertise nodig om het te begrijpen."

In de nieuwe groep gaan we werken aan AI-toepassingen die niet alleen betere voorspellingen maken, maar waarbij we ook voor elke voorspelling kunnen uitleggen hoe die gemaakt is.

Sanne Abeln

Verklaarbare AI

Er is overigens al wel een AI-toepassing die grote impact maakt binnen de biologie: AlphaFold. Om goed te kunnen functioneren, moeten eiwitten zich in een specifieke driedimensionale vorm vouwen. Met AlphaFold is het mogelijk om deze vorm te voorspellen gebaseerd op de volgorde van de aminozuren waaruit het eiwit is opgebouwd. Voordat AlphaFold bestond was het gebruikelijk om de vorm van een eiwit te bepalen met dure en tijdrovende experimentele technieken.

Hoewel AlphaFold de vorm van een eiwit kan voorspellen, snappen biologen eigenlijk niet hoe de toepassing dat doet. AlphaFold heeft daarom volgens Abeln nog niet geleid tot nieuwe inzichten over hoe eiwitten zich vouwen. Abeln: "In de nieuwe groep gaan we werken aan AI-toepassingen die niet alleen betere voorspellingen maken, maar waarbij we ook voor elke voorspelling kunnen uitleggen hoe die voorspelling gemaakt is. Op welke aspecten van de data baseert een AI-model de voorspellingen? Dit wordt verklaarbare AI genoemd. Meer begrip over hoe de voorspellingen ontstaan zal leiden tot meer begrip over de complexe biologisch systemen."

Multidisciplinair

Een voorbeeld van een onderwerp waarop de groep zich gaat richten is de interactie tussen planten en micro-organismen. Uiteindelijk zou dit kunnen leiden tot een AI-toepassing die voorspelt welke combinatie van micro-organismen in de bodem zal leiden tot de optimale groei en ontwikkeling van een bepaalde plant.

De leden van de nieuwe leerstoelgroep zullen samenwerken met en bijdragen aan het Utrecht Bioinformatics Center. Het team van Abeln zal multidisciplinair zijn, waarbij sommige onderzoekers meer de focus hebben op informatica en andere meer op de biologie. Abeln zelf studeerde wiskunde en informatica, promoveerde in Oxford in de bio-informatica en deed daarna een postdoc in de biofysica. Abeln legt uit dat haar brede ervaring nu goed van pas komt. Abeln: "Eigenlijk gebruik ik nog al deze disciplines in mijn onderzoek. Je moet van best wel veel dingen wat weten om dit soort onderzoeksvragen te kunnen nuanceren."