Sociale media

Big-data-bedrijven als Palantir bieden ongekende mogelijkheden aan journalisten, met grote gevaren

Palantir is een bedrijf dat uitblinkt in het koppelen van databestanden om zo voorspellingen te kunnen doen over natuurrampen, epidemieën of volksopstanden. Super handig. Ook voor journalisten. Maar er kleven wel wat gevaren aan het gebruik van software van dit soort bedrijven.

Het combineren van open bronnen als Facebook en Twitter met andere databases kan nieuwe inzichten bieden. Data van sociale media en andere bronnen kunnen als puzzelstukjes aan elkaar gelegd worden, op zo’n manier dat er een groter beeld tevoorschijn komt. Het slim combineren van open met gesloten bronnen kan levens redden bij natuurrampen, epidemieën of volksopstanden. Het kan criminelen ontmaskeren en corruptie zichtbaar maken, maar is ook een gevaar voor onze privacy.

Er zijn tientallen bedrijven die software aanbieden om databases aan elkaar te koppelen, ‘to stay ahead of the news’. Maar deze software is duur en de implementatie vereist dat er werknemers over de vloer komen om jouw databases geschikt te maken voor gebruik binnen het programma. De meeste van deze bedrijven onderhouden ook nog eens nauwe contacten met overheden en inlichtingendiensten.

Data van Netflix

In 2006 publiceerde Netflix tien miljoen beoordelingen van films, van een half miljoen klanten. Netflix had de persoonlijke details verwijderd, en de namen van de klanten waren vervangen door willekeurige ’random’ getallen. Netflix daagde datawetenschappers uit om met de geanonimiseerde data te experimenteren. Om ’filters’ te vinden waar de Netflix-ingenieurs zelf niet aan gedacht hadden, zodat Netflix nog meer had aan de data.

De datawetenschappers Arvind Narayanan en Vitaly Shmatikov van de universiteit van Texas, deden wat Neflix gevraagd had, maar vonden niet iets waar Netflix op hoopte. Narayanan en Shmatikov vergeleken de database van Netflix met de openbare Internet Movie Database, waarop mensen met naam en toenaam hun mening over films geven. De datawetenschappers lieten zien dat ze 80% van de Netflix gebruikers die ook op IMDb zaten, wisten te ontmaskeren.

Het bleek dat als je de honderd populairste films elimineerde – de films die iedereen bekijkt – dat mensen er redelijk unieke voorkeuren op nahielden, en makkelijk te herkennen waren. Zo werd zichtbaar dat sommige filmliefhebbers er banalere privé voorkeuren op nahielden dan ze in het openbaar op IMDb openbaarden. Maar belangrijker nog: ze maakten duidelijk dat geanonimiseerde databases vaak minder anoniem zijn dan gedacht. Zie het wetenschappelijk verslag dat Narayanan en Shmatikov schreven over hun analyse: Robust De-anonymization of Large Sparse Datasets [pdf].

Bij databases geldt dat één plus één vaak veel meer is dan twee. Databases zijn als puzzelstukjes die los van elkaar veel minder informatie geven, dan wanneer ze aan elkaar gelegd worden.

Het schimmige bedrijf Palantir

Het opvallendste bedrijf dat zijn kernactiviteiten gebaseerd heeft op het aan elkaar koppelen van databases heet Palantir. Het is een schimmig bedrijf uit Silicon Valley en relatief onbekend omdat het de eerste jaren veelal in het geheim werkte. Palantir is opgericht met investeringen van de leden van de zogenaamde PayPal-maffia[fn]De PayPal-maffia verwijst naar een groep oprichters en werknemers van PayPal die diverse nieuwe techbedrijven hebben opgericht, zoals YouTube, LinkedIn, Yelp en Yammer. Kijk voor meer informatie op Wikipedia. met als capo di tutti capi Peter Thiel en In-Q-Tel, de investeringspoot van de CIA.

Palantir heeft in nauwe samenwerking met de Amerikaanse inlichtingendiensten gewerkt aan software die data uit verschillende gesloten bronnen aan elkaar koppelt, op zo’n manier dat analisten er makkelijk mee kunnen werken.

Aanvankelijk werkte Palantir met inlichtingendiensten als de FBI en de CIA. Maar steeds meer zijn het ook lokale politiekorpsen, grote bedrijven, vliegmaatschappijen en financiële instellingen.

In een filmpje van de hulporganisatie DirectRelief is te zien hoe dergelijke software werkt. DirectRelief gebruikte Palantir rond Hurricane Sandy die november 2012 New York trof. Met behulp van data van de universiteit van South Carolina verschijnen de meest kwetsbare districten van Amerika. Met data van weerdiensten wordt de verplaatsing van Sandy getoond. Vervolgens wordt gekeken naar alle ziekenhuizen en apotheken in de kwetsbare gebieden en met databases uit de farmaceutische industrie, hoe ze bevoorraad zijn met medicijnen. Zo kon met een paar muisklikken in beeld gebracht worden welke regio’s acuut hulp nodig hadden.

Het is duidelijk waardevolle software die voor overheidsdiensten, hulpdiensten of bedrijven die snel en doeltreffend willen handelen op een moment van een calamiteit.

De gevaren van Palantir

Maar niet iedereen is enthousiast. Medewerkers van Palantir – dat zoals gezegd banden heeft met Amerikaanse inlichtingendiensten – moeten bij de klanten over de vloer komen om hun databases geschikt te maken om te delen. Sommigen noemen het eerder een dienstenbedrijf dan een softwarebedrijf. Palantir vindt voor iedere klant – op basis van de data die voorhanden is – opnieuw het wiel uit. Zo vergaart Palantir veel kennis over de manier waarop de veiligheidsdiensten werken. Palantir is in die zin te beschouwen als een nieuw soort inlichtingendienst.

‘Hun model is dat ze niet alleen software leveren maar ook dat ze bij je langs komen om je data te organiseren om jou een product op maat te bieden,’ zegt een anonieme bron uit de Nederlandse inlichtingenwereld. ‘Daarmee laat je ze over de vloer komen en heb je ze inzage gegeven in je modus operandi. Ze kunnen misschien niet altijd bij de data maar ze weten wel hoe slim je bent, en dat is ook wat waard.’

Geheime informatie vergaren

Een ander probleem van Palantir is dat het bedrijf het makkelijk maakt om informatie te vergaren die eigenlijk geheim zou moeten blijven. ‘Stel dat jij rechten hebt op level 3, dan kun jij via Palantir allemaal systemen in die level 3 vereisen. Maar het feit dat je nu hele slimme combinaties kunt maken uit bijvoorbeeld twintig systemen kan ertoe leiden dat je ziet dat X tot Y leidt, een inzicht waarvan andere mensen hadden gedacht dat alleen mensen met level 4 dat te weten zouden kunnen komen.’

Met het slim combineren van databases is het soms mogelijk om identiteiten van undercover agenten of anonieme getuigen te achterhalen. ‘Door slimme combinaties kom je tot informatie die eigenlijk op een level hoger inzichtelijk zou zijn. Sterker nog dat kan letterlijk in een ander systeem staan waar jij geen toegang toe hebt. Jij mag maar zes stukjes zien, of tien, en dan kan het zijn dat als je ze in elkaar legt dat jij de rest van de puzzel wel ziet.’

TomTom en Google verkopen aan de gemeente Amsterdam geanonimiseerde data over verkeersstromen in de stad. LinkedIn geeft geanonimiseerde data over mensen die van baan veranderen en wat de LinkedIn-gebruikers die in Amsterdam wonen voor vaardigheden en opleiding hebben. Met de software van Palantir is het mogelijk om door deze databases aan elkaar en aan andere databases die de gemeente Amsterdam heeft te koppelen, veel meer te weten te komen dan de bedoeling is.

De fuik van Palantir

Tenslotte is Palantir een ’disruptief’ bedrijf. Wat Airbnb is voor de hotelwereld is Palantir voor de veiligheidsdiensten. Het unieke aan Palantir is dat het mogelijkheden biedt om ook geheime bronnen aan elkaar te koppelen. Veiligheidsdiensten kunnen net als bij Facebook of Linkedin ’vrienden’ met elkaar worden, en aangeven welke vrienden ’goede vrienden’ zijn die meer data mogen zien dan anderen. Palantir maakt het daarmee makkelijk om databronnen van verschillende diensten aan elkaar te koppelen.

Er is daardoor een dwingende druk om met Palantir te gaan werken als ’bevriende’ politiediensten of inlichtingendiensten er al mee werken. Mede daardoor is het lastig om met Palantir te stoppen. Net als bij een dienst als Spotify is het niet mogelijk om je ’playlists’ te behouden als je geen gebruik meer maakt van de dienst. Als je in de fuik van Palantir gezwommen bent is het soms lastig om er weer uit te komen.

Op dit moment is er bij veel inlichtingendiensten een discussie gaande over Palantir en de alternatieven. Zoals IBM’s Analyst Notebook en ESRI Maps, die het Amerikaanse leger gebruikt als onderdeel van het Distributed Common Ground System-Army (DCGS-A) platform. Palantir werkt goed, snel en is goedkoper, maar met Palantir maakt het Amerikaanse leger zich volgens critici te veel afhankelijk van het bedrijf uit Silicon Valley. De interne strijd is nog niet beslist.

Journalistieke toepassingen

Het spreekt vanzelf dat ook journalisten baat kunnen hebben bij software die helpt om netwerken in kaart te brengen, tijdlijnen te maken, ongestructureerde data te organiseren. Binnen de journalistiek wordt er nog weinig gebruik van gemaakt dit soort programma’s.

De onderzoeksjournalisten van Bellingcat maken geen gebruik gemaakt van Palantir of software die vergelijkbaar werkt. ‘Het gaat in mijn wereld om de probleemstelling en niet de software,’ zegt Henk van Ess, die samenwerkt met Bellingcat. ‘Het middel vloeit voort uit het doel. Bij Bellingcat krijgen we regelmatig verzoeken om nieuwe software speciaal te bouwen voor journalisten en ik denk ook mee. Maar tot nu toe zijn de initiatieven gebrekkig. Veel van de oplossingen hebben het probleem van onvolledige data en vereisen een gedisciplineerde aanpak, die journalistiek meestal niet heeft.’

Toch zijn er wel voorbeelden van journalistieke projecten waarbij dit soort software gebruikt is. Het International Consortium of Investigative Journalism (ICIJ) gebruikte Palantir bij een onderzoek naar netwerken die handelen in menselijke lichaamsdelen.

Voor het onderzoek naar de Panama Papers bouwden drie developers van de ICIJ een eigen versie van Palantir, zoals datajournaliste Mar Cabra uitlegt bij een lezing:

Daarbij maakt ICIJ gebruik van open source software van Neo4j, Oxwall en Linkurious. Maar ook software van Nuix, die ook gebruikt wordt door de Amerikaanse geheime diensten, de Department of Homeland Security en Interpol. Het is geen software die je even download. Het gebruik van de software betekent per definitie een samenwerking met het bedrijf, die de databronnen geschikt maakt voor de software en updates verzorgt.

Je kunt je afvragen of dat wenselijk is als onafhankelijke journalisten zo nauw samenwerken met bedrijven die sterke banden hebben met veiligheidsdiensten of dubieuze instanties die Palantir kunnen betalen. Zeker als het gaat om gevoelige data zoals bij de Panama Papers.

Lees in Vrij Nederland het verhaal van Gerard Janssen over Peter Thiel, een van de grondleggers van Palantir: De slimste man van Silicon Valley volgt elke stap die jij zet.


— of — Reageer

Reacties

Leave a Reply