“Hoeveel is het? Ik heb een stickie van 128gb,” reageert Arnout Jaspers op de reactie van Elmar Veerman op Facebook. Veerman heeft de meeste content van Wetenschap24 nog wel op een harde schijf staan. De discussie op Facebook wordt gevoerd naar aanleiding van de lancering van Meldpunt Prullenbak. Veel online content verdwijnt, maar, zo blijkt uit de eerste reacties, is toch nog wel ergens. Op iemands harde schijf, niet toegankelijk voor het publiek.
Heb jij ook een tip voor ons? Meld het dan in de Prullenbak!
De eerste week van Meldpunt Prullenbak levert 15 meldingen op. KPN’s Planet.nl, een van de eerste nieuwssites, is geheel verdwenen. Hetzelfde geldt voor DAG.nl, de site van gratis krant DAG die in 2009 werd opgeheven, en spitsnieuws.nl, de site van Sp!ts, de gratis krant van TMG die in 2014 stopte.
Soms blijkt ook dat oudere nieuwsartikelen van bestaande websites niet meer terug te vinden zijn. J-lab onderzoeker Daniela van Geenen ondervond dit tijdens haar onderzoek naar de Twitter-sfeer van Nederland. Oude tweets van de accounts van het AD en De Telegraaf, bevatten niet werkende links. Via Google waren deze artikelen ook niet meer te bereiken.
Dit werd ook geconstateerd door de redactie van Villamedia. Uit een steekproef blijkt dat honderdduizenden artikelen van de De Telegraaf niet meer te vinden zijn via Google. Het bericht meldt dat er waarschijnlijk iets mis is gegaan bij de invoering van de nieuwe website van De Telegraaf. De artikelen bestaan waarschijnlijk nog wel, maar de indexering sluit niet meer aan bij Google.
Ook prestigieuze projecten lijken te verdwijnen. Zoals de interactieve kaart van Nederland van Boven, een documentaire serie van de VPRO. De afleveringen van de serie staan nog online, maar de interactieve kaart lijkt verdwenen. Dat terwijl deze kaart tientallen unieke datasets op een bijzondere manier toegankelijk maakte voor het publiek.
Een speciale website rondom het jubileum van de VARA is ook offline gehaald. Volgens Yvette Valkenburg (BNN/VARA), omdat de techniek van de site niet meer up-to-date was. Valkenburg zoekt nog wel naar een oplossing om de site weer online te krijgen.
Uit de discussie op Facebook kunnen we enkele problemen herleiden. Zo lijkt het mis te gaan wanneer een website wordt gemigreerd. Hierbij gaat soms content verloren, of de content is niet meer in zijn originele context te zien.
Als er al spraken is van archivering, lijkt dit vaak gericht te zijn op inhoud:
Inhoudelijk bestaat de content van de themasites nog, maar de vorm is verdwenen.
Een ander voorbeeld hiervan is NRCQ.nl. Deze website, gericht op werkend Nederland, stopte als zelfstandige site er werd onderdeel van NRC.nl. NRCQ stond bekend om zijn gebruik van interactieve elementen. Alleen die werken niet meer in de nieuwe webomgeving.
Webarchivering: Hoe dan?
De problematiek rondom webarchivering lijkt deels te liggen in het bewustzijn bij mediabedrijven. Maar dat is niet het hele verhaal. Vanuit technologische perspectief is het ook helemaal niet zo makkelijk om een website te archiveren. Vroeger, toen het internet nog relatief statisch was, kon een webpagina gemakkelijk opgeslagen worden door de losse documenten en de bijbehorend HTML-code te bewaren.
Tegenwoordig, of eigenlijk sinds we spreken over het Web 2.0, zijn websites dynamische omgevingen die er op elk apparaat en voor elke gebruiker anders uit kunnen zien. Dit wordt ook wel responsive design genoemd. Dit, in combinatie met metadata over de gebruiker, genereert een vrijwel unieke weergave van elke website. Dit is mogelijk omdat de meeste websites gemaakt worden met geavanceerde content management systemen, wat het archiveren van websites een stuk moeilijker maakt.
Daarnaast valt het materiaal dat wordt gearchiveerd gewoon onder het auteursrecht. Dit betekent dat de partij die het materiaal wil archiveren en toegankelijk wil maken, hiervoor toestemming nodig heeft van de maker.
De Belgische organisatie TRACKS, een afkorting voor Toolbox & Richtlijnen voor Archief- & Collectiezorg in de Kunstensector, heeft een overzichtelijke handleiding geschreven voor het archiveren van websites. Ze noemen drie mogelijkheden: de website kan gearchiveerd worden door een organisatie die websites archiveert, je kan zelf een offline kopie maken van de site, of je kunt een video maken van een surfsessie op de website.
Bestaande archieven
Wat gebeurt er al op het gebied van webarchivering? Het bekendste voorbeeld is natuurlijk het Internet Archive. Deze Amerikaanse non-profit organisatie heeft als doel alle boeken, films, software, muziek en website te archiveren en toegankelijk te maken. Websites worden gearchiveerd door het maken van screenshots, en vaak werken interne links van de website nog. The Way Back Machine geeft toegang tot hun internet-archief. Even uitproberen met Planet.nl:
Op de afbeelding zie je een tijdlijn. De zwarte kolommen geven aan hoeveel screenshots er in het archief te vinden zijn. We kunnen op deze manier dus behoorlijk wat terughalen van Planet.nl. Maar het archief is niet compleet.
In Nederland kennen we geen organisatie die verantwoordelijk is voor het archiveren van websites. Wel bestaan er verschillende collecties als onderdeel van reeds bestaande archieven.
De Koninklijke Bibliotheek in Den Haag archiveert sinds 2007 Nederlandse websites over taal, cultuur en geschiedenis. Het archief is in verband van auteursrecht en privacywetgeving alleen toegankelijk in de KB. Ondertussen bevat het archief 12.350 websites (laatste telling mei 2017). Het is onduidelijk of het archief ook nieuwswebsites en journalistieke producties bevat.
Beeld & Geluid zou, dat vorig jaar fuseerde met het Persmuseum, een voor de hand liggende partner zijn voor de archivering van journalistieke werken. Na de fusie, beschikt Beeld & Geluid over een audiovisueel- en dagbladenarchief. In het collectiebeleid wordt het archiveren van audiovisuele internetproducties wel genoemd als speerpunt. Beeld & Geluid heeft nu ongeveer 200 websites (allemaal gerelateerd aan media) in het archief, en werkt aan de uitbreiding en het toegankelijk maken van deze collectie.