Berichten · AI · Waarom AI nog niet gebruikt wordt voor research: “Terminator die je documenten sorteert”

Waarom AI nog niet gebruikt wordt voor research: “Terminator die je documenten sorteert”

Eric Van den Berg

15 Jun, 2021

AI is aan een opmars bezig binnen de journalistiek. Zelflerende systemen bemoeien zich met, recommendations, reacties van lezers en kunnen zelfs iets schrijven dat op een podcast lijkt. Toch worden AI-tools weinig gebruikt binnen journalistieke research. Waarom is dat eigenlijk? JournalismLab vroeg het aan datajournalist Jerry Vermanen.

Wie het komende seizoen een doelpunt weet te scoren bij een potje voetbal in de lagere regionen van het amateurvoetbal in Noord Nederland, zal deze daad waarschijnlijk online vereeuwigd zien worden. NDC Mediagroep (o.a. Dagblad van het Noorden) maakte gisteren namelijk bekend alle 60.000 wedstrijden die elk seizoen in haar verspreidingsgebied gespeeld worden te gaan verslaan met behulp van een schrijfrobot.

Schrijven is niet het enige journalistieke handwerk dat zoetjes aan wordt geautomatiseerd. De afgelopen jaren zetten Nederlandse mediabedrijven al vergelijkbare stappen bij het maken van promo’s, camerawerk, en het uitsturen van pushberichten. De computer kan steeds meer, iets dat vooral te danken is aan ontwikkeling van zelflerende systemen. Toch is er één vorm van journalistiek werk die hierbij buiten schot blijft: research, het vergaren van informatie voor een productie. Het is misschien wel de kern van het metier en vooralsnog exclusief mensenwerk.

Dit is een van de uitkomsten van het lopende onderzoek dat het Lectoraat Kwaliteitsjournalistiek in Digitale Transitie momenteel uitvoert waarbij wordt gekeken naar de rol van AI binnen de Nederlandse journalistiek. Voor dit onderzoek spraken we met 27 journalisten zeer uitvoerig over een recente productie van hun hand. Alhoewel veel algemene software die de journalisten gebruikten (Google voorop) weliswaar zwaar leunde op AI, maakte niet één van de bevraagden in hun research gebruik van AI-software die specifiek voor journalistieke doeleinden geschreven was.

Waarom is dat eigenlijk? Is het een kwestie van tijd totdat AI ook hiervoor wordt ingezet? Of is er iets inherent anders aan researchwerk dat dit moeilijk of zelfs onmogelijk maakt? Iemand die licht op deze zaak kan werpen is Jerry Vermanen. Als datajournalist bij KRO-NCRV’s Pointer maakt hij deel uit van een van een van de meest technologisch vooruitstrevende redacties van Nederland, maar hij is ook als praktijkpartner betrokken bij het onderzoek van het lectoraat.

Hype of hoop? ‘AI’ is soms verkooptruc
Het eerste wat Vermanen uit de weg wil krijgen: de discussie over AI wordt vaak vertroebeld door het gebruik ervan als reclameterm. Veel journalistieke projecten waarbij programmeerwerk of data-analyse komt kijken krijgen het label ten onrechte opgeplakt. Werk dat in de Verenigde Staten hoge ogen gooide was bijvoorbeeld een onderzoek van de LA Times waarbij aan de hand van politiedocumenten werd aangetoond dat de LAPD misdaadcijfers laag probeerde te houden door ernstige misdrijven als minder serieuze vergrijpen te classificeren. Dit werk leunde onder meer op TF-IDF, een statistische methode om de meest typische woorden uit een tekst te distilleren, en het project wordt gezien als een doorbraak voor de inzet van AI binnen de onderzoeksjournalistiek. TF-IDF zelfs is echter niet meer dan een telmethode. Pointer gebruikte dezelfde techniek in 2019 ook om aan de hand van partijprogramma’s de belangrijkste thema’s van de Europese verkiezingen te bepalen, maar koos ervoor om dit op andere wijze onder de aandacht te brengen. “We hadden dat ook als AI-project in de markt kunnen zetten”, zegt Vermanen daar nu over. “Dan had er geen haan naar gekraaid.”

Door de aantrekkelijkheid van het label krijgt technologie die het etiket niet echt verdient het soms toch opgeplakt. Zo worden schrijfrobots vaak genoemd in de context van de discussie over AI in de journalistiek (ook in dit artikel), terwijl veel van dit soort robots niet meer zijn dan veredelde tekstsjablonen. “Je weet nooit zeker wat voor technologie er precies in zit”, zegt Vermanen.

Minder dan 100% correct is niet goed genoeg
Voordat ‘echte’ AI kan worden ingezet voor researchdoeleinden moeten overigens ook een paar fundamentele hordes genomen worden, denkt Vermanen. AI wordt veel gebruikt om eigenschappen van documenten of data te voorspellen. Denk aan een de gezichtsherkenning op je iPhone. Is dat een foto van je vader, of toch je oudere collega? Probleem hierbij: zelfs de beste AI-modellen zijn nooit 100% waterdicht, ongeacht hun taak. Voor iPhoto geen probleem, maar veel onderzoeksjournalisten is accuratesse onder de 100% niet genoeg. Wat te denken van het onderzoek van de Atlanta Journal-Constitution waarbij met hulp van een zelflerend systeem van artsen werd vastgesteld dat ze patiënten seksueel hadden misbruikt?

Behalve de onzekerheidsmarge is er ook nog het ‘black box probleem’, legt Vermanen uit. Pointer identificeerde bijvoorbeeld in de aanloop naar de verkiezingen een botleger op Twitter. Typisch werk dat door grote techbedrijven aan zelflerende systemen wordt uitbesteed. Een dergelijk AI-programma stelt dan met een bepaalde waarschijnlijkheid de kans vast dat een specifieke account niet door een mens wordt beheerd, maar waar het programma op aanslaat is bij zo’n zelflerend systeem moeilijk te achterhalen. “Als ik niet precies weet waarom mijn black box tot een bepaald resultaat komt, hoe kan ik dat dan aan mijn lezers verantwoorden?” zegt Vermanen. “Als het zegt: ‘50% kans dat dit Twitteraccount een bot is’, wat betekent dat dan überhaupt?”

Een Terminator die je documenten komt sorteren
Toch kunnen ook dit soort systemen toch journalistieke waarde hebben, denkt Vermanen. “Je kan het halverwege je onderzoek gebruiken als aanwijsstok.” Als voorbeeld noemt Vermanen de lijst van ‘zorgcowboys’ die Pointer jaarlijks publiceert: bedrijven die buitenproportioneel verdienen aan zorgcontracten van de overheid. Om tot die lijst te komen moeten duizenden jaarrekeningen worden doorgespit. “Stel je voor dat je zo een stapel wilt terugbrengen van duizenden naar honderden. Machine learning kan daar enorm bij helpen. Daar kan voor Pointer de kracht liggen.” Het is een minder romantisch beeld dan de term AI vaak oproept. “Het is geen Terminator die je komt vermoorden. Eerder een Terminator die je documenten komt sorteren.”

Een laatste probleem is dat AI – in contrast met de Terminator – voor zeer specifieke problemen gebruikt wordt. Het analyseren van grote hoeveelheden data is het natuurlijke domein van de technologie. Veel problemen laten zich in die mal drukken, maar de te analyseren gegevens moeten eenvormig voorhanden zijn. In de journalistiek is dat zelden het geval. “Je moet iets hebben dat precies past”, zegt Jerry. Als dat niet zo is, is mensenwerk vaak efficiënter. “Dat zie je ook bij Bellingcat. Die gebruiken AI, maar werken ook vaak met grote groepen vrijwilligers om door video’s heen te spitten.”

Wachten op een knallend verhaal
Toch sluit Vermanen de inzet van de technologie voor journalistieke research in de nabije toekomst niet uit. Zelf denkt hij daarbij niet alleen aan het onderzoek naar zorgfraude, documentanalyse voor andere doeleinden is ook een mogelijkheid. Bij Pointer loopt bijvoorbeeld een onderzoek naar mensenhandel waarbij grote hoeveelheden tekst moeten worden doorgespit. Daar zou AI een rol kunnen spelen. Een probleem, denkt Vermanen, is dat bewustzijn omtrent AI bij veel journalisten beperkt is. “Onder onderzoeksjournalisten wordt er wel eens over gesproken, maar bij conferenties kunnen ze geen spreker vinden. Een kip-ei verhaal.” Het wachten is volgens hem dan ook op een overtuigende scoop die op een zelflerende computer leunt. “Als iemand een keer met een knallende verhaal komt gaat de sneeuwbal ongetwijfeld rollen”, zegt Vermanen. “Nu moet je nog graven naar een voorbeeld. Wie weet verzuipen we er dan in.”

MEER OVER

About Journalismlab

Research group Journalism in Digital Transition of the University of Applied Sciences Utrecht

Het lectoraat Kwaliteitsjournalistiek in Digitale Transitie (JournalismLab) doet aan de hand van diverse thema’s praktijkgericht onderzoek. Hierbij kijken we naar de wederkerigheid tussen drie journalistieke processen: productie, inhoud en effect.

Deel dit artikel: