Una volta si diceva “verba volant scripta manent”, le parole volano, sono gli scritti ad essere permanenti. Ma nell’era del web è davvero così? Giornali, tv, radio, ognuno di questi mezzi ha sempre avuto un archivio fisico, in biblioteche, cineteche, archivi privati delle vare testate. Con l’avvento del web le cose sono cambiate e non solo per il diritto alla privacy. Nell’era del web, il giornalismo è stato in gran parte trasformato in live blogging, con articoli che sono spesso editati o semplicemente cancellati.
Fortunatamente, dal 2004 esiste un archivio delle notizie on line: si tratta del progetto GDELT di dati aperti, che si è unito al programma “No More 404” (Error 404 è la scritta che compare quando un link non è più disponibile su Internet). GDELT fornisce all’Archivio un elenco in tempo reale degli URL di tutti gli articoli di notizie online monitorati in tutto il mondo, aggiornati ogni 15 minuti. Un anno e mezzo più tardi, l’archivio stava analizzando e archiviando ogni giorno una grande parte di questi URL, creando forse la più grande iniziativa per archiviare il giornalismo online di tutto il mondo e in 65 lingue. Entro la fine del 2017 questa collaborazione ha archiviato oltre 5,4 miliardi di URL distinti per un totale di 221 terabyte di giornalismo, che altrimenti sarebbero stati a rischio per sempre.
Un piccolo esperimento pilota nell’autunno 2015 ha mostrato che circa l’1,5-2% di tutti gli articoli di notizie online monitorati da GDELT ha restituito un Errore 404 sole due settimane dopo. Nei solo sei mesi del 2015, circa 7-14 milioni di articoli di notizie monitorati da GDELT sono andati persi per sempre, rappresentando fino a due volte la produzione totale del New York Times per mezzo secolo. In totale, lo 0,68% degli articoli non era più accessibile dopo 24 ore, salendo all’1,5% dopo una settimana.
Unioni di più notizie, cancellazioni e reindirizzamenti influenzano il 2,71% degli articoli dopo 24 ore e il 4,12% dopo una settimana. Complessivamente, il 63% delle modifiche a livello di URL si verificano entro le prime 24 ore dalla vita di un articolo (42% delle eliminazioni e 75% dei reindirizzamenti).
Per gli articoli che hanno restituito contenuti validi (inclusi gli URL reindirizzati), il 93,57% ha avuto almeno una modifica all’HTML della pagina Web restituita entro 24 ore. Dopo una settimana sale al 95,37% degli articoli.
Il 5,09% degli articoli ha subito un cambiamento nel titolo della pagina entro 24 ore, con il 6,06% con una variazione in una settimana. Complessivamente, l’80% delle modifiche al titolo avvengono entro le prime 24 ore.
Fortunatamente servizi come l’Internet Archive stanno contribuendo a preservare il giornalismo mondiale per i posteri e ad assicurare che il nostro record condiviso del genere umano sia disponibile alle generazioni future, piuttosto che svanire nel buco della memoria digitale.
Chiara Porta
direttore responsabile Eo Ipso (www.eoipso.it)