Home>Berichten>Praktijktoets helpt generatieve AI in zorg verder

Praktijktoets helpt generatieve AI in zorg verder

Philip van de Poel

01 februari 2024

5 min

Wie de berichten in de media volgt, kan constateren dat artificiële intelligentie financieel krachtvoer is voor Big Tech. Hoe moet de zorg zich verhouden tot al dit commerciële geweld? En heeft generatieve AI, lees: taalmodellen zoals ChatGPT, de zorg überhaupt al iets te bieden? Om antwoord te krijgen op vragen als deze, hield Health-RI in Jaarbeurs Utrecht een drukbezocht tweedaags evenement.

Als het om de commerciële potentie van AI gaat, spreken de nieuwste kwartaalcijfers van Microsoft boekdelen. Dankzij AI is de kwartaalomzet gestegen met 18 procent tot 62 miljard dollar. De winst liep daarnaast op tot bijna 22 miljard dollar. Met een geschatte waarde van bijna 3000 miljard dollar is Microsoft zodoende Apple zelfs voorbijgestoken als ‘s werelds waardevolste bedrijf.

Impact

Voor AI in de zorg lijken al deze ontwikkelingen nog wat snel te gaan. Uit recent Amerikaans onderzoek blijkt dat weliswaar de helft van de zorgbestuurders de ontwikkelingen volgt, maar nog geen kwart past AI al daadwerkelijk toe binnen de eigen organisatie. De meerderheid verwacht dat AI pas over vijf jaar merkbare impact gaat hebben op de sector.

Integratie in EPD

Dat de rol van AI in de zorg vooralsnog beperkt blijft, mag volgens Marc Snackey, product owner data analytics bij UMC Utrecht, voor de sector geen reden zijn om achterover te leunen. “Large language models als ChatGPT komen we overal tegen”, aldus Snackey bij de opening van de LLM-tweedaagse. “Ook binnen de zorg klinkt de roep om integratie in het EPD.”

Klein taalgebied

Zorgaanbieders, professionals en leveranciers doen er wat Snackey betreft goed aan de handen ineen te slaan. “Als het om klinische tekst gaat, leven we in een klein land.”

Dit geringe taalbereik is ook terug te zien in de modellenbibliotheek van AI-platform Hugging Face. Van de bijna 500.000 modellen zijn er 990 op het Nederlands geënt. Daaronder niet meer dan een handvol medische modellen. “Er is dus grote noodzaak om samen te werken”, concludeert Snackey. “Dat doen we onvoldoende. Instellingen zijn te veel naar binnen gericht.” Goed nieuws is er ook. Nederland bestrijkt weliswaar een klein taalgebied, maar is wel een “high resource” land. Oftewel: de kennis en middelen zijn er.

Generieke LLM-tools

Het evenement in Utrecht concentreert zich op twee inhoudelijke vragen. Allereerst willen de deelnemers weten of het mogelijk is om met LLM’s betere, accuratere informatie te extraheren uit grote bronbestanden als vragenlijsten en EPD’s, zoals bijvoorbeeld pijnscores of diagnoses. Daarnaast is er de zoektocht naar bredere toepasbaarheid. Of zoals Snackey het verwoordt: “Is het mogelijk om generieke LLM-tools te maken die de zorgverlener in staat stelt om zelf vragen te beantwoorden in plaats van dat wij als ontwikkelteam voor iedere vraag puntoplossingen bedenken.”

Kleinere modellen

Wat de huidige generatie LLM’s wel en niet kunnen, maakt hoogleraar Natural Language Processing (NLP) Suzan Verberne van Universiteit Leiden goed duidelijk in haar bijdrage. Bijwerkingen destilleren uit patiëntgesprekken op Facebook? Check! Doorvertalen naar medische codering? Geen probleem! Zelf aan de slag met taalmodellen? Natuurlijk! “De modellen worden steeds kleiner”, legt Verberne uit. “Een model met 7 miljoen parameters in plaats van 70 miljoen parameters is beter hanteerbaar en toepasbaar. Dat kun je in principe op een MacBook draaien.”

Medisch gebruik

Dit neemt niet weg dat er nog allerlei weeffouten in LLM’s zitten die medisch gebruik bemoeilijken. ChatGPT bijvoorbeeld is niet zozeer ingericht op accuratesse als wel op het te vriend houden van de gebruiker. Bij verdiepende vragen of tegenwerpingen begint ChatGPT zich al snel te verontschuldigen. Ook laat ChatGPT zich nog wel eens in de luren leggen door sturende vragen. Toen Verberne ChatGPT eens vroeg wanneer Einstein in Leiden verbleef, kreeg ze keurig jaartallen voorgeschoteld die consistent zijn met Einsteins levensloop. Alleen: Einstein is nooit in Leiden geweest.

Hallucinatie als kenmerk

“ChatGPT is getraind om dialoog aan te gaan en instructies op te volgen”, aldus Verberne. “Dat maakt hem sterk, maar brengt ook het gevaar van hallucinatie mee. Hallucinatie is not a bug but a feature. Wat ChatGPT doet, is het genereren een plausibele reeks waarschijnlijke woordvolgordes. Hoe specifieker het onderwerp hoe groter daarbij de kans op hallucinaties, want informatie over zulke onderwerpen is beperkter beschikbaar.”

Onjuistheden

Juist in een sector waarin hyperspecialisatie steeds dieper doordringt en behandelingen een steeds gepersonaliseerder worden, kan de grote duim van ChatGPT voor problemen zorgen. Ook het maken van samenvattingen van wetenschappelijke artikelen gaat niet zonder ongelukken.

Onderzoek suggereert dat in een kwart van de samenvattingen onjuistheden zaten. En bij de beantwoording van medische vragen kwam slechts 20 procent van de antwoorden overeen met het antwoord van deskundigen. “Eigenlijk kun je ChatGPT pas toepassen als je al veel van een onderwerp weet”, concludeert Verberne.

Menselijke eigenschappen

De ironie wil dat ChatGPT uitblinkt in eigenschappen die juist menselijke zorgverleners worden toegedacht. “Patiënten vinden LLM’s vaak vriendelijk, want een taal-bot heeft alle tijd en geeft uitgebreid uitleg, terwijl de dokter misschien haast heeft en kortaf is. Maar tevredenheid en vriendelijkheid zijn natuurlijk niet hetzelfde als correctheid.”

Milieubelasting

Verberne stipt ook een vaak vergeten aspect van AI aan, namelijk de carbonvoetafdruk. “Eén run ChatGPT kost duizend keer meer energie dan een gewone Google-zoekopdracht. En taalmodel BLOOM bleek goed te zijn voor een uitstoot van 25 ton CO2.” Ter vergelijking: een personenauto die 15.000 kilometer per jaar rijdt, stoot 3.300 kilo uit.

Zorgprofessional ontlasten

Vervuiling van een andere orde is het overvloedige papierwerk waar zorgprofessionals dagelijks mee worden opgezadeld. Dat kost ze soms wel tot 40 procent van hun werktijd, stelt Arjan Groen van de Nederlandse start-up HealthSage.ai. De LLM-oplossing van HealthSage kan professionals ontlasten door ongestructureerde medische teksten met “ongekende snelheid en stiptheid” om te zetten in de standaardspecificaties van FHIR. Zorgaanbieders die durven, kunnen met de beta-versie van Note-to-FHIR aan de slag. De open source-benadering is een bewuste keuze. Groen: “Met open source zijn we transparanter, waardoor we vertrouwen opbouwen en veel sneller kunnen door ontwikkelen.”

GPT-NL

Zo waren er bij de LLM-tweedaagse meer initiatieven met een gezamenlijk tintje. Met GPT-NL bijvoorbeeld proberen TNO, SURF en NFI antwoord te geven op het commercieel geweld van Big Tech. In april moet de dataset van dit taalmodel klaar zijn. Begin volgend jaar komt het model beschikbaar. “Of het kan concurreren met grote modellen moet nog blijken, maar ook het werk dat nu wordt gedaan is belangrijk en waardevol”, klonk het tijdens de zaaldiscussie. Zorgen waren er ook in de zaal. Bijvoorbeeld over de privacy-aspecten: “Er wordt veel geëxperimenteerd met commerciële aanbieders, maar als je alle data over de schutting gooit loop je grote risico’s.” Toch was de teneur positief, of zoals een deelnemer het treffend verwoordde: “Experimenteren? Ja, maar wacht met implementeren.”

AI is één van de kernthema’s tijdens Zorg & ict 2024. Het grootste health tech event van Nederland wordt van 9 tot en met 11 april gehouden in Jaarbeurs in Utrecht.