Aggregatie websites: Hoe accuraat zijn nieuws aggregators?

Nieuws-aggregators werken op twee manieren. Ze kunnen een simpele RRS-feed zijn, waarbij nieuws van verschillende bronnen direct wordt doorgeplaatst. Of ze maken gebruik van webcrawler (spider), een bot die geautomatiseerd op het web opzoek gaat naar nieuws met bepaalde zoektermen. Maar hoe waterdicht is dit systeem?

Wijkcentrum in Ermelo
De zoekmachine van Hetnieuws.in kopt in de aggregator van de gemeente Den Bosch: ‘Sloop Ermeloër wijkcentrum Leemkuil lijkt definitief‘. De inwoners van Den Bosch worden geinformeerd over de sloop van een wijkcentrum, ruim 100 kilometer verderop. Wie het stukje van De Stentor leest, weet dat een Gelderse wethouder, die over de sloop gaat, Jan van den Bosch heet. Van den Bosch komt in het stukje twee keer voor, waardoor de alarmbellen van de robot zijn gaan rinkelen: dit is nieuws voor Den Bosch.

Secuur
De aggregators gaan over het algemeen echter secuur te werk. Per bericht is gekeken waar het nieuws daadwerkelijk betrekking op heeft. Het wielergala, dat in Den Bosch gehouden werd, is voor veel inwoners interessant, omdat het in hun stad plaatsvindt, deze vallen dus onder Den Bosch. Gevallen zoals het wijkcentrum in Ermelo en Bossche rechtbankverslagen verdwijnen al snel onder  het kopje ‘overig’.

Precisie Den Bosch

Precisie Uden

De lagere dekking in Den Bosch (meer in overig) is te verklaren door een aantal factoren. Zo zitten veel redacteuren van het Brabants Dagblad op de redactie in Den Bosch en zijn het gerechtshof en de rechtbank in Den Bosch te vinden, dat nieuws gaat dus ook relatief vaak niet echt over Den Bosch. Precisie Boekel

 

Van Boekel
Doordat Boekel een kleine gemeente is, met betrekkelijk weinig nieuws (in totaal 60 berichten) kan één bericht een grote impact hebben op de statistieken. Zo gaat bijna de helft van alle berichten in de 28% ‘Overige berichten’ maar over één man: scheidsrechter Van Boekel.Toen Van Boekelbekend werd dat Van Boekel Europese wedstrijden gaat fluiten, verschenen op verschillende media nieuwsberichten. Google News bundelde deze berichten en bood ze als groep aan. Wie bij een bericht klikt op ‘alle bronnen weergeven’ krijgt een lijstje van een aantal verschillende artikelen over hetzelfde onderwerp.

Echte dubbelingen zie je hier niet, maar het nieuws is vaak hetzelfde. Zo ook bij Van Boekel, die een dossier had van 5 artikelen en daardoor meteen een zwaargewicht werd in de Boekelse nieuwsstroom. Het bericht kwam daarnaast ook in de feeds van Headlines.nl, Hetnieuws.in en Kranten.com voor.

Headlines.nl
De aggregators zijn zo gemaakt dat berichten niet te vaak opnieuw verschijnen in de feed. Meestal werkt dat goed. Maar soms gaat het mis. Doordat de Wegener-kranten een gedeelte van de kopij delen, verschijnen dezelfde berichtjes op verschillende websites. Headlines.nl neemt vaak berichten van verschillende pagina’s mee, waardoor de bezoeker vaak dezelfde content voorgeschoteld krijgt van vrijwel identieke websites (alleen een ander logo). Een goed voorbeeld van zo’n artikel, dat is gaan rondzingen is een stuk over een ‘anonieme pestapp‘.

Het stuk gaat over de manier waarop scholen lastig grip krijgen op de online activiteiten van scholieren. Een voorbeeld uit Den Bosch wordt aangehaald, maar verder is het geen regionaal nieuws, waardoor het onderwerp in ‘overig’ verdwijnt. Het artikel komt in totaal 10 keer voor in de lijst van Headlines.nl: BN De Stem (2x), De Stentor (2x), Eindhovens Dagblad (2x), PZC (2x) en Tubantia (2x). Daarmee tikt het aantal berichten in overig snel aan en krijgt de bezoeker vaak dezelfde content onder de neus geschoven.

Drimble pakt het anders aan. Zij linkten één keer naar het artikel (in De Stentor) en lieten de andere voormalige Wegener websites achterwege.

Alle aggregators op een rijtje
Om een duidelijker beeld te krijgen hoe accuraat iedere aggregator is, heb ik in een document kort iedere onderzochte website belicht. Het resultaat is hier te downloaden.

Eerdere stukken uit deze serie teruglezen? Klik dan hier.