Een synthetisch gevoel van betrouwbaarheid

Dani Shanley en Joshi Hogenboom over synthetische data, de voors en tegens van interdisciplinariteit, en waarom AI er waarschijnlijk niet voor zal zorgen dat we kunnen stoppen met het bestuderen van de wereld waarin we leven.

Synthetische data is informatie die wordt gegenereerd door algoritmen die zijn getraind op bestaande gegevenssets, die zijn verkregen door het verzamelen van data in de echte wereld. De gegenereerde data hebben vergelijkbare statistische eigenschappen en kunnen de originele gegevenssets aanvullen of diversifiëren. Dit is nuttig voor het valideren van wiskundige modellen, technische prototypes of het trainen van modellen voor machinelearning. Toch kleven er ernstige ethische en praktische bezwaren aan synthetische data.

"De mogelijkheden worden flink gehypet – en daarmee ook loze beloftes,”, zegt Dani Shanley. "Er waren ook een paar kritische stemmen, maar we vonden dat wetenschappers een serieuze dialoog moesten aangaan over de risico's en hoe we die kunnen beperken." Vlak voor haar zwangerschapsverlof zette Shanley's collega Flora Lysen een interdisciplinaire samenwerking op tussen FASoS en UM-onderzoekers van de afdeling Clinical Data Science van het Maastricht UMC+ en Maastro Clinic. Dat resulteerde in een publicatie in de prestigieuze EMBO Reports.

Gratis, anoniem en zo divers als een regenboog

Joshi Hogenboom is een epidemioloog en biomedisch onderzoeker. Hij is gespecialiseerd in het vergaren van kennis uit geografisch verspreide data, waarbij individuele privacy de hoogste prioriteit heeft. Hij experimenteerde met geavanceerde modelling en deep learning om data te synthetiseren die echte data uit de gezondheidszorg nabootsen, in die zin dat ze dezelfde kenmerken hebben. Hogenboom legt uit dat technologische vooruitgang heeft geleid tot een grotere beschikbaarheid en tegen een zeer lage prijs. "De kosten voor klinisch onderzoek kunnen in de miljoenen lopen; synthetische data kosten bijna niets omdat ze gegenereerd worden uit bestaande data."

Daardoor zijn synthetische data een bruikbare oplossing voor een groot aantal problemen. Ze zouden privacy garanderen: de nieuwe dataset kan worden gebruikt om processen te testen zonder de werkelijke patiëntgegevens zichtbaar te maken. Je kunt er ook een gebrek aan gegevens mee omzeilen. "Als je gegevens hebt van slechts tien patiënten, maar je hebt er tienduizend nodig voor je statistische toets, dan kun je synthetische data genereren met vergelijkbare eigenschappen. Als alle honderd patiënten hier uit het ziekenhuis komen, kun je nog geavanceerdere technieken gebruiken om de diversiteit van de dataset kunstmatig te vergroten."

Dani Shanley is universitair docent aan de Faculty of Arts and Social Science, waar ze ook een onderzoeksmaster Cultures of Arts, Science and Technology deed. Haar onderzoek is gericht op de ethiek en politiek van opkomende technologieën.

Gaten vullen

Maar door gaten te vullen om data representatiever te maken, ontstaat het gevaar dat we de problemen van vandaag negeren, zoals dat bij veel van de futuristische beloftes van AI het geval is. "In plaats van een probleem op te lossen, maskeren we het," waarschuwt Shanley. "Als we om socio-materiële en historische redenen geen data hebben van ondervertegenwoordigde groepen, zullen de synthetische data een wereld vertegenwoordigen die niet bestaat – terwijl impliciet wordt gesuggereerd dat deze representatief is.” Ze vergelijkt het met spreken in andermans naam: zelfs als je het met de beste bedoelingen doet, heeft de ander geen echte, eigen stem.

"We zien nu al dat bedrijven te veel vertrouwen op synthetische data en bijvoorbeeld ecosystemen voor patiëntenzorg ontwikkelen die niet zijn afgestemd op de echte wereld," zegt Hogenboom. Over de belofte van privacy zegt hij: "We hebben gezien dat modellen echte patiëntgegevens genereren als ze niet met uiterste voorzichtigheid worden toegepast. Mensen zouden privacy als een gegeven beschouwen omdat de data synthetisch zijn."

Er is een kans dat data uit de echte wereld vervuild raken.

Joshi Hogenboom

Wat is nog echt?

Een ander probleem is dat hoe complexer deep learning-modellen zijn, hoe onduidelijker het is hoe ze tot hun resultaten komen. Veel van de synthetisch gegenereerde datasets worden gebruikt om andere deep learning-modellen te trainen, die op hun beurt datasets kunnen genereren die worden gebruikt om andere algoritmen te trainen, totdat er een matroesjka van black boxes ontstaat. Hogenboom: "Afhankelijk van hoe geavanceerd ze zijn kunnen sommige AI's synthetische data als zodanig herkennen, bijvoorbeeld in het geval van beeldgeneratie. Maar we zijn al op het punt aanbeland dat dat niet langer een gegeven is. Er is een kans dat data uit de echte wereld vervuild raken."

Waarmee we weer terug zijn bij het probleem dat de data ons niets nieuws meer leren – of erger. Volgens Shanley worden de inherente vertekeningen en gebreken in data alleen maar groter. "Te veel vertrouwen op de beloften van AI is een nog groter gevaar; het is als een tovermiddel dat ons verlost van de noodzaak van grondig kwalitatief onderzoek, dat duur en tijdrovend is. Maar dat soort onderzoek blijft nodig om fenomenen echt te begrijpen."

Joshi Hogenboom is promovendus bij Clinical Data Science, een gezamenlijke afdeling van Maastricht University, Maastricht UMC+ en Maastro Clinic. Hij studeerde Biomedical Sciences and Epidemiology aan de UM.

Silo-overstijgende samenwerking

In hun stuk bekijken Shanley en zijn collega’s synthetische data vanuit de AI-ethische kernbegrippen verantwoordelijkheid, non-maleficence, privacy en transparantie, en rechtvaardigheid, eerlijkheid en billijkheid. Het was zeker niet hun bedoeling om zich vijandig uit te laten over technologische vooruitgang of te lobbyen voor een moratorium; de potentiële voordelen zijn duidelijk. "Deze bijna binaire benadering van óf ongebreideld enthousiasme óf dystopische angst helpt niet," legt Shanley uit. "We wilden de gemeenschap waarschuwen dat dit met ons op de loop zou kunnen gaan, dus we moeten zo vroeg mogelijk nadenken over mechanismen om verantwoord gebruik te garanderen. Naast de technische aspecten moeten we duidelijk zijn over waar we dit voor willen gebruiken, en hoe."

Het is enigszins teleurstellend dat er geen knop is waarop je kunt klikken om een algoritme in de ontwerpfase ethisch te maken. Daarom vond Shanley samenwerking met technische experts cruciaal. "Allemaal leuk en aardig om tegen ontwikkelaars te zeggen dat ze transparante algoritmen moeten maken, maar hoe en in hoeverre kun je deze concepten daadwerkelijk operationeel maken? In de sociale wetenschappen hebben we abstracte gesprekken over deze concepten, dus we vonden het geweldig om een duidelijker idee te krijgen van hoe transparantie implementeren eigenlijk in zijn werk gaat – om maar een voorbeeld te noemen."

Ontwikkelaars moeten begrijpen dat ze elke dag ethische beslissingen nemen, of ze dat nu bewust doen of niet.

Dani Shanley

Geïntegreerde ethiek

Hogenboom geeft lachend toe dat zijn technobabbel soms moeilijk te volgen was, maar Shanley benadrukt dat "wanneer je over disciplines heen werkt, je elkaars taal voldoende moet leren spreken om argumenten te kunnen doorgronden en een dialoog aan te gaan. Dat is echt een hoop werk." Ze waarschuwt voor mooipraterij van bedrijven en vindt, net zoals ze meer technische training voor FASoS-studenten zou toejuichen, dat ethiek een integraal onderdeel zou moeten zijn van technische curricula, in plaats van een enkele verplichte cursus. "Ontwikkelaars moeten begrijpen dat ze elke dag ethische beslissingen nemen, of ze dat nu bewust doen of niet."

Hogenboom is het daarmee eens: "De samenwerking heeft me echt de waarde doen inzien van ethiek, niet alleen als een bijkomstigheid, maar als een integraal onderdeel in elke fase van onderzoek en ontwikkeling." Hij herinnert aan het Nederlandse kinderopvangtoeslagschandaal en het Britse Post Office-schandaal en waarschuwt dat de technologische mogelijkheden ons niet blind mogen maken voor de mogelijke gevolgen van zowel de tools zelf als de overdreven verwachtingen ervan. "Technologie genereert een gevoel van zekerheid dat heel gevaarlijk is."

Tekst: Florian Raith

Lees ook

Werken bij UM: “een life-changing experience”

2 juli 2024

“Ik ben er trots op dat onze nieuwe groep Circular Plastics het eerste volledig eigen onderzoek publiceerde”, zegt Kim Ragaert. Drie jaar geleden, bij haar start in Maastricht, zette ze de onderzoeksgroep op. Inmiddels staat ze aan de basis van menige innovatie op het gebied van plasticrecycling en...
Traumavrije zorg voor zieke kinderen

26 juni 2024

Bloedprikken, een infuus aanleggen of in het oor kijken; zelfs ogenschijnlijk eenvoudige medische handelingen kunnen bij kinderen angst, pijn en stress veroorzaken. Volgens kinderarts-intensivist Piet Leroy zijn comfort en vertrouwen net zo belangrijk als de medische behandeling zelf. Hij onderzoekt...
Hoe ontstaan discussies op sociale media?

13 juni 2024

Hoe gaan mensen met elkaar om op sociale media en andere online platforms? Hoe belanden ze in conflict? En het belangrijkste: hoe kunnen we voorkomen dat die discussies escaleren? Promovendus Maud Oostindie doet er onderzoek naar. En dan is ze ook nog het nieuwe ‘Face of Science’ van de Universiteit...

Zoekterm