Startups: Blendle

Datawetenschap in de journalistiek: Zo berekent Blendle wat jij wil lezen

Het nieuwe wapen in Blendles strijd om de betalende lezer heet curatie. Niet de toegang tot de artikelen, maar de selectie ervan moet het bedrijf onmisbaar maken voor de lezer. Daarom bouwt Blendle aan een aanbevelingsmachine die per gebruiker precies berekent wat hij het liefst leest. Waar je woont, wat je vrienden leuk vinden, of je vaak over katten praat – tientallen factoren en duizenden berekeningen gaan bepalen welk artikel je krijgt voorgeschoteld.

Het is alsof een goede vriend hoogst persoonlijk iedere week een lijstje voor je in elkaar knutselt, met een briefje erbij: ‘Deze nummers moet je echt luisteren, je vindt ze zéker goed.’ Het is niet zomaar een vriend, maar eentje die je al had op de basisschool, eentje die je door en door kent – zo goed, dat ‘ie precies weet welke muziek je wil horen, zelfs al had je die muziek nooit eerder gehoord.

Zo omschrijven althans de vele fans de playlist die Spotify wekelijks naar ze opstuurt. Lees over het ontstaan en het succes van de Spotify-playlist met persoonlijke aanbevelingen het artikel van AdWeek: Even Spotify is surprised by the huge success of its Discover Weekly Playlists. 

Geen wonder dat de naam vaak valt op de Blendle-burelen: Discover Weekly. Binnen een jaar werden via Discover Weekly 5 miljard tracks beluisterd, zo meldde Spotify in mei 2016. Want zo heet die gepersonaliseerde lijst, die wekelijks niet door een vriend, maar door de computersystemen van Spotify wordt samengesteld. Ties Joosten (31), hoofdredacteur van de Blendle-nieuwsbrief, noemt het zijn belangrijkste inspiratiebron: de dagelijkse Blendle-mailing moet ‘een soort Discover Weekly van de journalistiek’ worden.

Discover Weekly, de wekelijkse lijst met persoonlijke, muzikale aanbevelingen van Spotify, is een inspiratiebron voor Blendle.
Discover Weekly, de wekelijkse lijst met persoonlijke, muzikale aanbevelingen van Spotify, is een inspiratiebron voor Blendle.

‘We hebben de selectie onderschat’

Het nieuwe wapen in Blendles strijd om mensen te laten betalen voor journalistiek heet curatie. “Lange tijd dachten we dat het probleem dat we moesten oplossen, ging over toegang“, vertelt Alexander Klöpping in de Blendle-kantine. “Waarom waren jonge mensen niet bereid te betalen voor kwaliteitsjournalistiek? Omdat veel artikelen überhaupt niet online te vinden waren – tenzij je een abonnement had, dan kreeg je zo’n rare pdf-krant. Dat toegangsprobleem losten we op door Blendle te maken, een platform waar je makkelijk losse artikelen kon kopen.”

Maar terwijl ze bezig waren het ene probleem op te lossen, ontdekten ze een nieuw probleem, vertelt Klöpping terwijl hij snel een halve boterham met salami naar binnen propt bij wijze van lunch. “In het enorme aanbod aan informatie raken mensen de weg kwijt. Veel informatie die voor jou interessant is, bereikt jou daardoor helemaal niet. We noemen dat het ‘discovery-probleem’. Mensen hebben behoefte aan iemand die voor hen gidst en filtert. Iemand die zegt: luister, ik ken jou, dit artikel ga jij leuk vinden. Ik denk dat we in het begin hebben onderschat hoe belangrijk mensen de selectie vinden.”

Alexander Klöpping tijdens de lancering van Blendle in 2014. Foto:Rob Huibers / Hollandse Hoogte.
Alexander Klöpping tijdens de lancering van Blendle in 2014. Foto: Rob Huibers / Hollandse Hoogte.

Blendle moet zichzelf ‘terwijl het vliegtuig al in de lucht is’, steeds opnieuw uitvinden, vertelt Klöpping. “Alles staat ter discussie. We doen gaandeweg inzichten op, en passen ons dan aan.” De vraag hoe het gaat, is een moeilijke voor Klöpping. Oké, Blendle maakte in augustus bekend dat het een miljoen gebruikers heeft, het bedrijf heeft uitgebreid naar Duitsland, en in de Verenigde Staten draait een betaversie. De groeicijfers zijn volgens Klöpping in Amerika vergelijkbaar met die van Nederland in het begin. Betekent dit dat het goed gaat? Over de cijfers – die zoals altijd angstvallig verborgen worden gehouden – is hij ‘heel tevreden’, en verder is het ‘heel erg zoeken’.

Voldoening kwijtgeraakt

Nu Blendle een betaversie in de VS heeft gelanceerd, zetten inzichten in de Amerikaanse journalistieke markt ook de producten voor de Nederlandse markt op scherp, vertelt hij. “In de VS ontdekte ik bijvoorbeeld dat mensen behoefte hebben aan een sense of ending. Vroeger zat de krant vast aan een tijd en een lengte. Als je hem uit had, wachtte je tot de volgende dag. Nu kranten steeds zwaardere digitale strategieën hebben, gedragen ze zich anders. Op internet is alles onbeperkt en live – de voldoening iets uitgelezen te hebben zijn we volledig kwijtgeraakt.”

Nog zo’n verandering: het ‘clubgevoel’. “Een abonnement op Vrij Nederland zei vroeger iets over jou, je hoorde ergens bij. Een digitaal abonnement geeft je dat gevoel niet. We moeten dus andere dingen bedenken om die emotie weer terug te brengen. De Correspondent doet dat bijvoorbeeld heel goed door mensen te laten reageren, maar bij kranten werkt de comments-functie niet bepaald.”

Blendle moet urgenter worden

Het zijn beide mogelijke redenen waarom jonge mensen niet meer betalen voor journalistiek, denkt Klöpping, en beide zijn ontwikkelingen waar Blendle ‘iets mee moet’. “Uiteindelijk draait het om de vraag: hoe zorg je dat je een gewoonte wordt in iemands dag? Gebruikers kunnen ook Snapchat, Facebook of Instagram openen – wat maakt dat ze Blendle kiezen? Als je Facebook opent, wéét je dat je vermaakt gaat worden: er wacht een bak met video’s en foto’s van vrienden en kennissen. Bij Snapchat is het nóg beter: foto’s en video’s die vrienden speciaal naar jou hebben gestuurd – veel nieuwsgieriger dan dat ga je niet worden.”

Alexander Klöpping: "Gebruikers kunnen ook Snapchat, Facebook of Instagram openen – wat maakt dat ze Blendle kiezen?"
Alexander Klöpping: “Gebruikers kunnen op hun smartphone ook Snapchat, Facebook of Instagram openen – wat maakt dat ze Blendle kiezen?”

Blendle moet daarom urgenter worden voor de gebruiker, stelt Klöpping. “Gebruikers moeten erop kunnen vertrouwen dat wij de stukken die ze willen lezen al voor ze hebben klaarstaan. Ze zullen niet naar ons komen voor het laatste nieuws, maar wél wanneer ze het laatste nieuws willen begrijpen. Ik zit te denken aan de traagste breaking news service ter wereld: het pushbericht dat je pas krijgt op het moment dat de reconstructie gemaakt is, en de achtergronden goed uitgezocht. Als je Blendle opent, moet je er zeker van kunnen zijn dat wij je het stuk voorschotelen waar al je vrienden over praten, of over gáán praten.”

De dagelijkse Blendle-nieuwsbrief

De eerste stappen hiertoe zijn al lang geleden gezet: dagelijks stuurt Blendle alle gebruikers ’s ochtends een nieuwsbrief met daarin de meest lezenswaardige artikelen volgens Blendle. De redactie herschrijft de koppen en de intro’s, om ervoor te zorgen dat de toon zo goed mogelijk aansluit bij de Blendle-lezers. Het effect van al die moeite wordt nauwlettend in de gaten gehouden: alle clicks en refunds worden zorgvuldig geteld en vergeleken.

Er zijn zelfs studenten die bij Blendle afstuderen op de koppen in de nieuwsbrief. Jeffrey Kuiken deed bij Blendle voor zijn masterscriptie onderzoek naar het effect van het herschrijven van koppen op de clickrate. Lees op Villamedia een samenvatting van zijn bevindingen: Dit is het geheim van een goede kop. En het werkt: deze ‘kijk-wat-wij-voor-jou-geselecteerd-hebben-mail’ is voor Blendle doorgaans de grootste bron van inkomsten op een dag. Lees op Nieuwe Journalistiek het artikel Hoe het Blendle Krantenoverzicht dagelijks gemaakt wordt.

Krantenabonnementen in Blendle

Sinds half maart 2016 krijgen de Blendle-gebruikers niet langer allemaal precies dezelfde nieuwsbrief. Wie zijn krantenabonnement heeft gekoppeld aan zijn Blendle-account, vindt bovenaan de nieuwsbrief voortaan twee of drie stukken uit de titel waarop hij is geabonneerd.

“Voor sommige mensen is journalistiek een opstapelend schuldgevoel”, legt nieuwsbriefhoofdredacteur Joosten uit. “Ze hebben wéken ongelezen nummers liggen waar ze niet aan toekomen. Die stapel roept negatieve emoties op, terwijl je die mensen eigenlijk een schouderklopje zou moeten geven omdat ze kwaliteitsjournalistiek steunen. In onze nieuwsbrief geven wij die mensen een tip: ‘Joh, als je maar even tijd hebt, lees dan deze verhalen uit je krant, die zijn wat ons betreft het meest waardevol.’ Ik denk dat we mensen zo weer op een positieve manier in aanraking brengen met goede journalistiek.”

Deze service Lees op de site van Blendle hoe je je abonnement op een krant of tijdschrift kan koppelen aan Blendle. levert Blendle geen geld op – abonnees lezen op Blendle gratis uit hun ‘eigen’ krant – maar wel een hoop data. Al zijn er volgens Blendle ‘relatief weinig abonnees’ die artikelen uit hun eigen krant via Blendle lezen, en zijn er bovendien een hoop abonnees die hun krant wél lezen, dus die klikken niet op artikelen uit de nieuwsbrief. De functie zit er volgens CEO Marten Blankesteijn vooral in omdat abonnementen voor uitgevers heel belangrijk zijn, en Blendle graag ‘vrienden blijft’ met de uitgevers.

Datawetenschap bij Blendle

Die data komen terecht bij Anne Schuth (33), en zijn inmiddels twaalfkoppig datateam dat Blendle sinds februari 2016 in rap tempo samenstelde. Schuth is datawetenschapper en promoveerde op onderzoek naar zoekmachinetechnologie. thesis-cover-213x300Het proefschrift van Anne Schuth is getiteld Search engines that learn from their users. Hij deed onder andere onderzoek bij Bing, de zoekmachine van Microsoft en bij Yandex, de Google van Rusland.

“Na mijn promotieonderzoek wilde ik niet voor een baan naar het buitenland. Dus kwam ik bij Blendle terecht.” In Nederland zijn er namelijk ‘verrassend weinig’ bedrijven waar je volgens Schuth als zoekmachine-expert aan de slag kan: “Eigenlijk is er alleen Booking.com, Travelbird, en Blendle.”

Aanbevelingsmachine bouwen

Zijn expertise komt bij Blendle als geroepen, want een zoekmachine werkt ongeveer hetzelfde als een aanbevelingsmachine – en dat laatste is precies wat Blendle voor ogen heeft om het discovery-probleem op te lossen. “We bouwen een systeem dat artikelen sorteert op basis van de relevantie voor de gebruiker”, legt Schuth uit.

 Anne Schuth, datawetenschapper bij Blendle. Foto: Aksel Ethem.
Anne Schuth, datawetenschapper bij Blendle. Foto: Aksel Ethem.

Maar hoe ‘weet’ Blendle welke stukken voor welke lezer relevant zijn? Daarvoor verzamelt het een enorme hoeveelheid aan data over de gebruikers én de artikelen. Dat begint al wanneer een nieuwe gebruiker zich bij Blendle registreert, vertelt Schuth. De gebruiker moet dan onderwerpen (channels, in Blendle-jargon) selecteren die hij interessant vindt, en titels van publicaties (door Blendle providers genoemd). “Zo weten we meteen dat ‘ie bijvoorbeeld van de Volkskrant houdt, en graag leest over gezondheid, technologie en wetenschap”, legt Schuth uit.

“We weten ook het IP-adres van z’n computer, waardoor we kunnen achterhalen waar iemand ongeveer woont.” Belangrijke informatie, want het zou goed kunnen dat een Brabander graag nieuws leest over Brabant. Wie zijn account aan Facebook koppelt, geeft nog meer informatie prijs. “Van die gebruikers weten we welke dingen ze liken, wie hun vrienden zijn, en wat die liken en lezen op Blendle. Hetzelfde geldt voor Twitter.”

Data over artikelen

Tot zover de data aan de kant van de gebruiker. Evenzoveel data moet verzameld worden over de artikelen. “Je hebt er namelijk niks aan om te weten waar de gebruiker woont, als je niet van ieder artikel weet of die woonplaats er in voorkomt.”

Schuth en collega’s maken daarom gebruik van entity recognition. “Dat is een tooltje dat zinnen ontleedt, en automatisch de zelfstandige naamwoorden eruit filtert. ‘Utrecht’ is bijvoorbeeld een named entity, net als ‘Donald Trump’ en ‘milieuorganisatie’.” Zodoende zou Blendle Utrechtenaars artikelen kunnen aanbevelen waarin de entity ‘Utrecht’ vaak voorkomt.

Hoe meer je leest, hoe beter Blendle je kent

Maar misschien is die Utrechtenaar wel helemaal niet geïnteresseerd in lokaal nieuws. Om beter te begrijpen wat de gebruikers écht leuk vinden, wordt hun klikgedrag nauwkeurig geanalyseerd. “Met iedere klik op een artikel, weten we weer een beetje meer over de gebruiker”, legt Schuth uit. “We maken van iedere gebruiker een profiel vol data. Alle eigenschappen van een gelezen artikel voegen we aan zo’n profiel toe. Als je bijvoorbeeld een artikel las over technologie – zelfs al had je dat channel niet als interessegebied aangevinkt – dan nemen we ‘technologie’ als interessegebied op in je profiel. Hoe vaker je een artikel met het technologielabel aanklikt, hoe zekerder we weten dat je dat onderwerp interessant vindt.”

Niet alleen het onderwerp van een artikel is een mogelijk signaal voor de voorkeuren van de lezer. Hetzelfde geldt voor de auteur van het stuk, en het medium waarin het gepubliceerd was. De nieuwsbriefredactie van Blendle bedacht daarnaast drie eigen categorieën die mogelijk informatie geven over de voorkeuren van de lezer: gravity, feel, en complexity.

Gravity gaat over de zwaarte van het onderwerp: de oorlog in Syrië is bijvoorbeeld erg zwaar, een verslag van een Ajax-wedstrijd niet”, legt hoofdredacteur Joosten uit. “Bij complexity beoordelen we hoe ingewikkeld het artikel is, en feel gaat over of je er een positief gevoel van krijgt.” Iedere ochtend kennen de redactieleden elk gelezen artikel scores toe (van 1 tot 3) op deze categorieën. Bovendien beoordelen ze om wat voor type artikel het gaat – lifehack, human interest, nieuwsverhaal, etc.

Ties Joosten, hoofdredacteur van de Blendle-nieuwsbrief: “Het doel is zo’n 300 aanbevelingen per week te maken.” Foto: Marieke Wijntjes.
Ties Joosten, hoofdredacteur van de Blendle-nieuwsbrief. Foto: Marieke Wijntjes.

Zelflerend systeem

Het idee is uiteindelijk dit: iedere Blendle-gebruiker krijgt zijn ‘eigen’ nieuwsbrief, die precies aansluit bij zijn voorkeuren. Hoe meer hij leest, des te beter Blendle begrijpt wat hij wil lezen. Als een lezer relatief vaak klikt op een artikel met een hoge complexity-score, dan ‘leert’ het systeem dat de lezer graag complexe stukken leest. De kans dat de nieuwsbrief deze lezer de volgende dag opnieuw complexe stukken voorschotelt, wordt groter met iedere klik op een complex stuk. Hetzelfde geldt voor stukken van een bepaalde auteur, stukken over IS (immers een named entity), human interest stukken, et cetera – allemaal voorkeuren die het systeem kan afleiden van het klikgedrag.

Er staan ongeveer vijftig van dit soort voorspellende factoren ‘klaar’, maar ze worden nog niet gebruikt, vertelt Schuth. “Tot nu toe neemt ons algoritme alleen nog de channel en providers mee in de berekening, en de redactionele beoordeling met ‘normal’, ‘good’ of ‘brilliant’.” Als een gebruiker dus relatief vaak in de nieuwsbrief klikt op een stuk uit de Volkskrant (een provider), dan krijgt ‘ie vaker iets uit de Volkskrant voorgeschoteld. Als ‘ie vaak iets leest over een bepaald thema (een channel) zoals technologie, dan krijgt ‘ie vaker een verhaal over dat thema.

Deze eerste personalisatieslag blijkt succesvol. De ‘persoonlijke’ nieuwsbrief doet het significant beter dan een standaard nieuwsbrief, vertelt Schuth. Hoe vaak de nieuwsbrief wordt geopend en hoeveel artikelen eruit worden verkocht, wil Blendle niet zeggen. Blendle wil wel kwijt dat de nieuwsbrief het beter doet dan gemiddeld in de mediasector. Als ijkpunt voor deze bewering gebruikt Blendle de cijfers van de mediasector van nieuwsbriefbedrijf Mailchimp. De gemiddelde openrate is volgens die cijfers bijna 22 procent, de clickrate bijna 5 procent. Bij Blendle zijn die percentages dus naar eigen zeggen hoger. Om ook de andere voorspellende factoren te kunnen opnemen in het algoritme, bouwen Schuth en zijn team eerst een ‘systeem dat beslissingen kan maken over het belang van iedere factor’. “De factoren moeten namelijk met elkaar gewogen worden. Misschien houdt een gebruiker van stukken uit de Volkskrant, maar niet van human interest: welke voorspeller is dan sterker?”

A/B-testen

Om daar achter te komen, testen Schuth en de andere datamannen de invloed van nieuwe factoren in eerste instantie op historische data. Aan de hand van eerder verstuurde nieuwsbrieven en de reactie van lezers daarop – alles wordt zorgvuldig gemeten en bijgehouden – rekenen ze hypothesen uit: wat nou als een nieuwe factor was meegenomen in de berekening?

Het inzicht dat daaruit voorkomt, proberen ze uit op de gebruikers via A/B-testen. “We stellen de helft van de nieuwsbriefontvangers bloot aan de berekening met de nieuwe factor, en de andere helft niet: vervolgens kijken we wat het effect is op de clickrate Clickrate is hoe vaak op een artikel wordt geklikt.en de refundrate.” Refundrate is hoe vaak het geld voor de aankoop van het artikel wordt teruggevraagd. Dat hoeft overigens niet handmatig: veel berekeningen en tests kan ‘het systeem’ zelf uitvoeren, en daaruit zelf conclusies trekken. Schuth: “Hij kent eerst een laag gewicht toe aan een nieuwe factor. Als het effect positief is, maakt hij het gewicht de volgende keer wat zwaarder, net zo lang tot hij het juiste gewicht significant berekend heeft.”

Op den duur wordt de inhoud van de nieuwsbrief dus per gebruiker bepaald op basis van wat zijn vrienden lezen, waarover hij twittert, welke kranten hij de afgelopen weken las, hoe vaak hij op showbizzartikelen heeft geklikt. Ook de homepagina van Blendle is hier in de toekomst op afgestemd. Wanneer een gebruiker de site bezoekt, ziet hij precies de artikelen die bij zijn voorkeuren passen.

Filter bubble

Maar hoe zit het dan met de ‘filter bubble’, het gevaar dat een lezer enkel nog wordt geconfronteerd met informatie die hij graag tot zich wil nemen? Schuth grinnikt. “Ik vroeg me al af waar ‘ie bleef. Ik weet inmiddels dat dit een belangrijk onderwerp is in de journalistiek. We ondervangen dat probleem doordat iedere dag drie van de twaalf stukken must reads zijn. Die stukken staan in iedere nieuwsbrief, ongeacht de voorkeuren van de ontvanger.” Dit zijn de onderste, en de bovenste twee artikelen.

“En vergeet niet: alle artikelen in de nieuwsbrief zijn door de redactie geselecteerd. Het zijn dus sowieso stukken die zij de moeite waard vinden. Als je heel erg van voetbal houdt, zal het niet voorkomen dat je – op de drie must reads na – alleen maar voetbalverhalen krijgt, want zoveel voetbalartikelen komen er per dag niet door de selectie.”

Dat betekent ook dat de redactie ’s ochtends vroeg niet meer – zoals voorheen Lees op Nieuwe Journalistiek het artikel: Hoe het Blendle-krantenoverzicht dagelijks gemaakt wordt. – slechts ongeveer tien artikelen selecteert, maar een veelvoud ervan. Immers: om aan de persoonlijke voorkeuren van de lezer tegemoet te kunnen komen, moet ‘het systeem’ wel wat hebben om uit te kiezen.

“Het doel is zo’n 300 aanbevelingen per week te maken”, vertelt hoofdredacteur Joosten. “Gelukkig lopen die processen tegenwoordig veel gestroomlijnder dan in het begin; we gaan niet meer om zes uur ’s ochtends met vijf man discussiëren over een woordje.” Al komt het nog steeds heel nauw. Arnoud van der Struijk, adjunct-hoofdredacteur van de Blendle-nieuwsbrief twitterde op 26 juli 2016:

‘Blendles aanbevelingsmachine is uniek’

Dat het allemaal ’s ochtends moet gebeuren, maakt van de productie van Blendles eigen versie van Discover Weekly een unieke exercitie, zegt Schuth met enige trots. “De redactie drukt om acht uur op ‘send’, en de nieuwsbrief moet vervolgens uiterlijk om kwart over acht bij de gebruikers aankomen. Dat is belangrijk, omdat we weten dat de meeste gebruikers hem ’s ochtends lezen, wanneer ze bijvoorbeeld in de trein zitten.”

Hij rekent voor: “Elke ochtend staan er zo’n 200 aanbevelingen klaar, we hebben een miljoen gebruikers: dat zijn dus 50 miljoen gebruiker-artikelcombinaties. Om die combinaties uit te rekenen, gebruiken we zo’n vijftig voorspellende factoren. Dat zijn een hoop berekeningen – en berekenen kost tijd. Daarom tuigen we het systeem zodanig op dat wanneer een redactielid om vijf over vijf al een aanbeveling heeft, we daarmee meteen aan het rekenen slaan – en niet pas als ze op ‘send’ drukken.”

Glunderend: “Die tijdsdruk maakt het bijzonder, het is één van de redenen waarom ik het zo leuk vind hier te werken. Het is een uniek probleem, dat bij mijn weten nergens anders voorkomt. Een zoekmachine als Google moet natuurlijk óók snel met een berekening komen en bovendien veel meer data doorzoeken, maar die data is over het algemeen een stuk ouder dan een paar uur.”

En Discover Weekly van Spotify? “Die kan gewoon een week staan rammelen voordat de lijst de deur uit moet.”


— of — Reageer

Reacties