Expertisemiddag Webarchivering: “Veel is weggegooid en komt nooit meer terug”

Terwijl kranten en tijdschriften zorgvuldig worden bewaard, lijkt de relevantie van webarchivering niet altijd te worden ingezien. Zonde, vindt het HU-lectoraat Crossmediale Kwaliteitsjournalistiek. Daarom organiseerden zij in samenwerking met het Nederlands Instituut voor Beeld en Geluid en Netwerk Digitaal Erfgoed (NDE) de Expertisemiddag Webarchivering, om met professionals kennis over de archivering van online content uit te wisselen.

Door: Tom van Marrewijk

In oktober begon J-lab in het ‘Meldpunt Prullenbak’ verdwenen journalistieke verhalen en websites te verzamelen. Wat blijkt: in de afgelopen decennia is onwijs veel content verloren gegaan. Uit het Meldpunt Prullenbak blijkt dat niet alleen kleine lokale spelers, maar ook onder meer NOS, VPRO en de Volkskrant hun content niet altijd (kunnen) archiveren. “We hebben aanmeldingen van allemaal verschillende nieuwsmedia”, zegt Renée van der Nat van J-lab voorafgaand de middag. “Hopelijk gaan zij straks naar huis met ideeën voor hun webarchivering.”

Het belang van webarchivering
Mediahistoricus Huub Wijfjes trapt de middag af. “Het meldpunt was even schrikken”, zegt hij. Volgens hem is de afgelopen jaren veel kwalitatieve content verloren gegaan. “Er is veel weggegooid en komt nooit meer terug. Vrijwel alle radio-uitzendingen tot 1950 en televisiecontent tot 1990 zijn verdwenen.”

Hoe heeft dit kunnen gebeuren? Volgens Wijffjes komt het grotendeels doordat het belang van archivering niet altijd wordt ingezien. Waarom zouden we in hemelsnaam alles bewaren? Daarnaast is de media vluchtig. “Vandaag kijken we met z’n allen hoe Sven Kramer wint op de tien kilometer, morgen is weer iets anders belangrijk”, aldus Wijffjes.

Een andere belangrijke oorzaak van het niet archiveren van webproducties is volgens hem het verschil tussen commerciële en niet-commerciële media. Bij de publieke omroep speelt nog het belang van het bewaren van publiek domein en erfgoed, maar bij commerciële media ligt dit soms anders. Uit de praktijk blijkt dan ook dat wanneer een commercieel platform stopt, daarmee vaak ook de content verdwijnt. Zoals bij De Pers en Spits is gebeurd.

Dramatisch gesneuveld
Een goed voorbeeld van een ander commercieel medium is Dichtbij.nl, ‘inspiratie’ voor het prullenbak-onderzoek van het HU-lectoraat. Bart Brouwers, toenmalig hoofdredacteur, vertelt tijdens de middag waarom er zoveel content verloren is gegaan: “Twee jaar geleden is de ontwikkeling van Dichtbij stopgezet. Het idee was om het platform te laten bestaan, maar bij toeval kwam ik erachter dat alle artikelen waren verdwenen.” Brouwers kon het niet geloven. Hij begon daarom een petitie en ging in gesprek met TMG. “Gelukkig vonden zij het ook zonde.”

Op het moment is een team bezig om zoveel mogelijk content van Dichtbij.nl terug te halen. Het werpt zijn vruchten af: 500 duizend artikelen zijn weer te lezen, nog 700 duizend artikelen volgen. Maar dat is niet alle content. In totaal stonden er twee miljoen artikelen op de website. Bepaald materiaal zoals foto’s, video’s en infographics zijn ‘tamelijk dramatisch gesneuveld’, zoals Brouwers dat zelf verwoord.

De huidige staat van webarchivering
Bovenstaande voorbeelden schetsen een vrij rampzalig beeld van de huidige staat van webarchivering. Maar is het er echt zo slecht mee gesteld? Arnoud Goos van het Nederlands Instituut voor Beeld en Geluid vertelt in zijn presentatie dat er in Nederland best veel wordt gearchiveerd. De rijksoverheid, gemeenten en provincies zijn zelfs verplicht om hun online content te bewaren.

Het Netwerk Digitaal Erfgoed heeft gewerkt aan een lijst met websites die worden gearchiveerd bij verschillende erfgoedinstellingen, zoals nationale en regionale archieven. Daar staan ongeveer 17 duizend URL’s in. Maar journalistieke websites? “Die zijn er niet veel in te vinden”, zegt Goos. “We maken weliswaar jaarlijks een kopie van websites zoals NOS.nl, De Correspondent en Villamedia, maar wij zien het niet als onze taak om elke dag een kopie te maken.”

Daarmee komen we dan ook direct bij de dilemma’s. Marcel Ras van NDE weet die goed uiteen te zetten. Hoe zit het met privacy en auteursrechten? Hebben we eigenlijk wel de mensen en middelen voor duurzame opslag? En wat willen en kunnen we eigenlijk bewaren? “Zeker is dat we maar een beetje kunnen archiveren”, zegt Ras. “Wat wij bijvoorbeeld niet zien is het deep web en verdere onderliggende databases.”

Het begint bezoekers ondertussen een beetje te duizelen: “Hoe pak ik het webarchiveren concreet aan?”, vraagt een Elsevier-werknemer bezorgd. “De websites van ons blad worden steeds aangepast door een verantwoordelijke IT’er.” Ras heeft daar een duidelijk standpunt over. “Archivering hoort niet bij een IT’er te liggen. Het is belangrijk om als organisatie een beleid te maken.”

Na een korte koffiepauze geven de Koninklijke Bibliotheek, Submarine Channel, het Nationaal Archief, De Coöperatie, Regionaal Archief Dordrecht en Utrecht Data School een korte presentatie over hoe zij kijken naar archivering. Wat valt op: bij elke presentatie worden dezelfde dilemma’s en beperkingen genoemd. Zo is het moeilijk om te bepalen wat je archiveert en soms is materiaal niet te archiveren, bijvoorbeeld doordat producties in javascript zijn gemaakt. En zo zijn er nog tientallen beperkingen te benoemen.

Vragen en obstakels staan deze middag dan ook centraal. Concrete antwoorden? Die zijn er niet. Er is duidelijk nog een flinke slag te slaan op het gebied van webarchivering. Of zoals Wijfjes dat mooi beschrijft: “Webarchivering is een deeltje van de grote problematiek van digitale duurzaamheid.”