Factchecken

Geautomatiseerd factchecken: hoe we computers kunnen inzetten om claims te ontkrachten

Leugens verspreiden zich sneller over het web dan factcheckers kunnen bijhouden. Maar niet als die factcheckers de hulp inschakelen van computers, zeggen Alexios Mantzarlis en Mevan Babakar: we kunnen het proces nu al gedeeltelijk automatiseren, en binnenkort zelfs volledig.

Factchecken is een arbeidsintensief proces en kan een dure investering zijn. Daarom wordt er nu volop onderzocht hoe we dit proces kunnen automatiseren. Wie taken uitbesteedt aan een computer, kan immers veel sneller en efficiënter te werk gaan. Computers zijn nu al in staat om sommige beweringen te herkennen, en aan de hand van databases te toetsen op betrouwbaarheid.

In maart 2016 vond al de eerste conferentie over geautomatiseerd factchecken plaats Lees op de website van Poynter het verslag van deze conferentie: What does the future of automated fact-checking look like? en in augustus publiceerde de Britse factcheck-organisatie Full Fact een overzichtsrapport over de stand-van-zaken. Dit rapport is getiteld The State of Automated Factchecking. Daarin stond dat het haalbaar moest zijn om binnen een jaar een systeem te ontwikkelen dat een gesproken of geschreven uitspraak volledig automatisch kan factchecken. De belangrijkste hobbel: geld.

Eerste initiatieven

Om dit plan te verwezenlijken, ontving Full Fact een paar maanden later een subsidie van 50 duizend euro van het Digital News Initiative. Het Digital News Initiative is het fonds waarmee Google innovatieve journalistieke projecten steunt.

Factmata, een soortgelijke tool uit Groot-Brittannië, kreeg hetzelfde bedrag.

Dat biedt dus perspectief, al liggen er nog genoeg technische uitdagingen op de loer: hoe kan een computer bijvoorbeeld afbakenen wat een feitelijke bewering is en wat niet? En op basis van welke informatie wordt vervolgens bepaald in hoeverre deze bewering klopt?

Belangrijk om te benadrukken is dat het Full Fact er niet om gaat om álle mogelijke beweringen te kunnen factchecken. Niet alleen omdat sommige claims simpelweg nog niet te detecteren zijn – denk aan parafraseringen of één claim die verpakt zit in meerdere zinnen of in een metafoor – maar ook omdat lang niet iedere vorm van data beschikbaar is om die claims te beoordelen. Full Fact richt zich voorlopig op de gegevens die wél beschikbaar zijn, zoals die van het Office for National Statistics.

Andere projecten op dit gebied staan vooral in het teken van één specifieke handeling binnen het factcheck-proces. Claimbuster is bijvoorbeeld een applicatie die politieke speeches omzet in digitale tekst om vervolgens door middel van machine learning te bepalen welke feitelijke beweringen ‘checkwaardig’ zijn. Het checken zelf is vervolgens mensenwerk.

Factcheckende computers – moeten we dat wel willen?

Ongeacht wat er al mogelijk is, zou je je kunnen afvragen hoe wenselijk deze mechanisatie überhaupt is. Juist wanneer het gaat om iets als betrouwbaarheid, is het zaak dat er zorgvuldig met informatie wordt omgegaan. Moeten we die verantwoordelijkheid wel willen automatiseren?

Daarover Mevan Babakar en Alexios Mantzarlis. Babakar is de digital products manager van Full Fact en Mantzarlis is de directeur van het International Fact-Checking Network, en voorheen de managing editor van de Italiaanse factcheck-website Pagella Politica en het, inmiddels inactieve, FactCheckEU.

Alexios Mantzarlis, directeur van het International Fact-Checking Network. Foto: Allan Leonard (CC BY-NC 2.0).

Beiden benadrukken dat, ook wanneer de factcheck volledig geautomatiseerd tot stand is gekomen, er altijd vóór de publicatie nog een menselijke blik overheen moet zijn gegaan. “Er blijven redactionele afwegingen en mensen kunnen die simpelweg nog altijd beter,” zegt Mantzarlis. Babakar wijst bovendien op de veranderlijke aard van de taal. “Er verschijnen constant nieuwe begrippen die computers niet meteen goed interpreteren.”

De voordelen van automatisch factchecken

Los daarvan zijn er volgens hen vooral voordelen van geautomatiseerd factchecken te noemen.

Voordeel 1: Sneller onwaarheden weerleggen

De eerste lijkt evident: het scheelt ontzettend veel werk. Het is sneller en goedkoper, want er is minder mankracht voor nodig. “Leugens verspreiden zich sneller over het web dan de correcties daarvan”, zegt Mantzarlis. “Dat blijkt ook uit onderzoek. Zie dit artikel van First Draft waarin recente studies op dit gebied worden besproken: Recent research reveals false rumours really do travel faster and further than the truth. Daarom is het heel belangrijk dat die correcties zelf ook sneller worden.”

‘Handmatig’ factchecken neemt nu eenmaal tijd in beslag. En tijd is schaars. Tussen het moment dat een claim of onjuiste informatie de wereld in wordt geholpen en de bijbehorende factcheck daar achteraan gaat, kan een flinke tijdskloof zitten: een leugen moet worden opgemerkt, vervolgens worden gedebunked, en dan ook nog zijn weg vinden naar het publiek. Een hoax loopt niet achter de feiten aan, het is precies andersom: de feiten moeten sprinten om een hoax bij te kunnen houden, laat staan in te halen.

Zo gezien is het niet gek dat factchecken weleens het verwijt krijgt weinig impact te hebben. Dus, beweren boze tongen: afschaffen. Nee, stelt Mantzarlis. De kloof moet worden gedicht.

Wanneer een factchecker de relatief eenvoudige opdrachten kan uitbesteden, voegt Babakar toe, heeft hij meer ruimte om zich met de belangrijkere zaken bezig te houden. “Nagaan of de criminaliteit inderdaad is gestegen is vrij simpel. Als computers dat soort taken op zich nemen, komen mensen eerder toe aan het complexere werk – zoals onderzoeken waarom de criminaliteit is gestegen.”

Voordeel 2: Dubbel werk voorkomen

Een ander voordeel van een geautomatiseerde benadering is dat het dubbel werk scheelt: door bijvoorbeeld een database op te bouwen van reeds gecheckte beweringen. “Er belanden ook veel leugens in de wereld die al eerder de ronde hebben gedaan,” zegt Mantzarlis. “Als je opslaat welke leugens dat zijn, zou je er veel sneller achter kunnen komen wanneer zo’n leugen opnieuw opduikt.”

Zo’n database kan van pas komen bij uitgesproken of gesproken leugens, maar ook bij gefotoshopte plaatjes. Mantzarlis geeft als voorbeeld deze afbeelding van Donald Trump, waarop te zien is hoe hij in 1998 zou hebben gezegd dat Republikeinen maar dom zijn en dat Trump van die domheid gebruik zou maken als hij ooit een gooi zou doen naar het presidentschap.

De verzonnen uitspraak van Donald Trump over de domme Republikeinse kiezers.

Deze afbeelding dook vlak na de Amerikaanse presidentsverkiezingen ook op bij Pauw, nadat Sylvana Simons erop wees. In diezelfde uitzending werd nog rechtgezet dat het gemanipuleerd was – de factcheckers van Snopes wisten dat al in oktober 2015.

In dezelfde categorie valt het gefotoshopte beeld dat suggereert dat Alexander Pechtold een pro-shariademonstratie bijwoont. Geert Wilders tweette deze foto begin februari 2017, ruim zeven jaar nadat het knip-en-plakwerk al elders was verschenen.

De gephotoshopte foto die Geert Wilders twitterde van Alexander Pechtold die deelneemt aan een pro-shariademonstratie.

Geautomatiseerd factchecken kan technologische grenzen verleggen, noemt Babakar ten slotte, juist omdat lang niet alle vereiste technieken al volledig ontwikkeld zijn. “Het geeft databeheerders bovendien een reden om hun data beter beschikbaar te stellen. Daar mogen ze best wat beter in gepusht worden. Er is zat data beschikbaar en daar zouden we veel meer gebruik van kunnen maken.”

Uitdagingen

Zoals gezegd zijn er tegelijkertijd nog genoeg uitdagingen. Computers zijn nog niet in staat om iedere zinsconstructie te herkennen, en daarna moeten ze deze claims ook nog eens zien te koppelen aan bestaande data. Veel data is simpelweg niet beschikbaar. Zoals Richard Socher, hoofd van de researchafdeling van het softwarebedrijf Salesforce hierover tegen Quartz zei, kunnen we onmogelijk alle kennis op aarde omvatten: “Het hele punt van nieuws is juist dat je constant nieuwe kennis toevoegt.” Lees het artikel van Quartz: In the fight against fake news, artificial intelligence is waging a battle it cannot win.

Maar dat wil niet zeggen dat factcheckers geen gebruik kunnen maken van de kennis die er wél is. Een systeem dat alle beweringen ter wereld kan controleren, is nog ver weg. Maar applicaties die zich richten op specifieke soorten claims of afzonderlijke taken binnen het factcheck-proces, kunnen ook al winst opleveren.

Full Fact Trends en Full Fact Live

Full Fact werkt momenteel aan twee geautomatiseerde tools, die vooralsnog alleen voor journalisten bedoeld zijn: Full Fact Trends en Full Fact Live. Full Fact Trends moet dit jaar worden gelanceerd en is een applicatie die op een soortgelijke manier werkt als Google Trends: het laat zien welke claims worden verspreid en wie daar achter zitten.

Screenshot van een prototype van Full Fact Trends.

Full Fact Live is het volledige factcheck-systeem en als alles volgens plan verloopt moet dit eind dit jaar beschikbaar zijn. Deze tool werkt door middel van Natural Language Processing Natural Language Processing (NLP) betreft de vaardigheid van een computerprogramma om menselijke taal te begrijpen en te verwerken. NLP is een combinatie van computerwetenschap, kunstmatige intelligentie en computationele linguïstiek. Lees meer op Wikipedia. en heeft twee functies: het koppelen van claims aan bestaande factchecks en het koppelen van claims aan relevante informatie in de vorm van databases met gestructureerde data. Op basis daarvan kan een journalist vervolgens de uitspraak interpreteren.

Dit alles is al mogelijk met de subsidie die Full Fact tot dusver van onder andere Google ontving. Wil men het ook geschikt maken voor het grote publiek, dan moet het budget nog zeker verdriedubbelen, zegt Babakar. En ook wát de tool precies kan checken hangt daarvan af. “We richten ons vooralsnog op het laaghangende fruit  – claims die al gecheckt zijn of die je relatief eenvoudig kunt herkennen en verwerken. Beweringen die uit één zin bestaan en te staven zijn aan de hand van statistische gegevens. Om ook het complexere werk te kunnen tackelen is meer onderzoek nodig, en dus geld.”

“De claims die steeds herhaald worden zijn meestal ook belangrijker dan een complexe claim die één keer de revue passeert,” gaat ze verder, “dus ook daarom ligt onze focus daar wat minder. Maar we moedigen wel universiteiten en masterstudenten aan om zich met daarmee bezig te houden. En we hebben er ook zelf al een hackaton voor georganiseerd.”

Andere projecten voor automatisch factchecken

Een ander project is Factmata dat een applicatie ontwikkelt die eveneens subsidie ontving van Google. Ook Factmata richt zich vooral op statistische gegevens – aan de hand van Natural Language Processing zoekt het naar zinnen met een eenheid (een land of persoon, bijvoorbeeld), een statistisch kenmerk voor die eenheid (zoals bevolkingsaantallen of werkloosheidscijfers) en de numerieke waarde voor dat kenmerk. Vervolgens spiegelt het deze claims aan gegevens van bijvoorbeeld de Organisatie voor Economische Samenwerking en Ontwikkeling (OESO) of de Wereldbank.

Screenshot van de website van Factmata.

Claimbuster is een tool die zich richt op een specifieke stap binnen het factcheck-proces: het zoekt naar ‘checkwaardige’ uitspraken in een gesproken of geschreven tekst, en laat het daadwerkelijke factchecken vervolgens over aan mensen. De uitspraken moeten hierbij feitelijk én relevant zijn. ‘De tafel is wit’ is bijvoorbeeld wel een feitelijke uitspraak, maar geen relevante, terwijl ‘De werkloosheid is sinds afgelopen jaar met zoveel procent gedaald’ dat wel kan zijn.

Het logo van Claimbuster.

Op basis van machine learning geeft Claimbuster een score van checkwaardigheid op een schaal van 0 tot 1, waarbij de tekst per zin in het blauw geannoteerd wordt – hoe donkerder hoe relevanter. Dit werd bijvoorbeeld al toegepast op debatten tijdens de Amerikaanse presidentsverkiezingen in 2016.

In Nederland speelt momenteel weinig op het gebied van geautomatiseerd factchecken. Er staat één Nederlandse naam in het overzichtsrapport van Full Fact: Statcheck – een tool die inconsistente p-waarden in psychologie-papers kan ontdekken. Nogal een niche dus. Dan is er nog de Groningse Margot Verleg, die in 2017 het prototype presenteerde van TrusttheSource, een app die de betrouwbaarheid checkt van tweets.

Het logo van TrusttheSource.

Samenwerking

Voorlopig draait het bij geautomatiseerd factchecken dus vooral om specifieke onderwerpen of handelingen. En daar is niets mis mee: eerdere projecten lieten al zien dat het niet altijd loont om in één keer te veel te willen bereiken. Lees op de website van Poynter dit overzicht van mislukte experimenten met automatisch factchecken: Fail and move on: Lessons from automated fact-checking experiments.

Om te voorkomen dat het wiel op meerdere plaatsen tegelijk wordt uitgevonden, benadrukt het Full Fact-rapport dat de internationale factcheck-gemeenschap goed moet samenwerken op dit gebied en open standaarden moet hanteren.

“Stel je voor,” droomt Babakar, “dat tijdens een persconferentie iemand zo’n tool op zijn telefoon heeft. En dat hij binnen een handomdraai de informatie paraat heeft waarmee hij direct kan bewijzen dat er onzin wordt verkondigd. Dat is waar ik naartoe wil.”

Een bewerkte versie van dit artikel is gepubliceerd op VICE Motherboard.


— of — Reageer

Reacties

Leave a Reply