Wayback Machine: come funziona l’archivio del web

Spesso non ce ne rendiamo conto, ma anche Internet è soggetto allo scorrere del tempo. Esso non è statico e immutabile, al contrario continua a evolversi e a trasformarsi. Durante questo incessante processo di metamorfosi nascono molte pagine web;  molte altre invece vengono chiuse o modificate, portando alla scomparsa di innumerevoli contenuti digitali. Per contrastare questo fenomeno è stata realizzata la Wayback Machine.

Cos’è la Wayback Machine?

La Wayback Machine è un archivio digitale dedicato al World Wide Web. Essa è nata nel 2001 grazie all’organizzazione no-profit Internet Archive, fondata da Brewster Kahle e Bruce Gilliat. Il nome di questo grande archivio web fa riferimento alla serie animata The Rocky and Bullwinkle Show, in cui i personaggi utilizzavano una macchina del tempo chiamata WABAC per assistere a eventi storici. Infatti la Wayback Machine si comporta come se fosse una macchina del tempo digitale, permettendo ai suoi utenti di visionare le pagine web archiviate al suo interno, così da poter comprendere come quest’ultime si sono evolute nel corso degli anni. Inoltre in questo archivio digitale è possibile reperire dei materiali che altrimenti sarebbero andati scomparsi. Lo scopo della Wayback Machine è dunque quello di archiviare tutto il World Wide Web per evitare che le informazioni e le conoscenze in esso contenute vadano perse.

Kahle e Gilliat hanno iniziato ad archiviare le prime pagine web nel 1996. All’epoca la Wayback Machine non era un vero e proprio archivio web accessibile a tutti, bensì un nastro digitale. Dopo cinque anni di lavoro e oltre 10 miliardi di pagine archiviate, nel 2001 i fondatori dell’Internet Archive hanno presentato il loro progetto a Berkeley, l’Università della California, e hanno reso la Wayback Machine accessibile al pubblico. Con il passare degli anni e lo sviluppo tecnologico e la capacità di memorizzazione della Wayback Machine è cresciuta esponenzialmente: oggi l’archivio web creato da Kahle e Gilliat conta più di 431 miliardi di pagine memorizzate nel cluster di nodi Linux di Intenet Archive, collocato a San Francisco.

Il Web Archiving: cos’è e come funziona

La realizzazione di un archivio digitale come la Wayback Machine è possibile grazie alla pratica denominata web archiving. Il Centro di Eccellenza Italiano sulla Conservazione Digitale definisce il web archiving come:

“Il processo di raccolta e conservazione di porzioni del World Wide Web allo scopo di tramandarlo agli storici, ai ricercatori ed al pubblico di domani”.

Per poter raccogliere e preservare i contenuti presenti in una pagina web in un dato momento vengono utilizzati degli appositi strumenti software, ovvero i web crawlers. Essi sono in grado di percorrere la struttura di un sito e di copiarla, creando così una sorta di fotografia istantanea della pagina web (snapshot). Per poter osservare come un sito web si evolve nel tempo è necessario creare una sequenza temporale utilizzando periodicamente i web crawlers.

Le problematiche dell’archivio del web

Archiviare l’intero World Wide Web risulta essere un’operazione praticamente impossibile da realizzare, a causa della sua sterminata estensione e della sua natura dinamica. Per questo motivo il web archiving viene effettuato in modo selettivo, basandosi sui temi trattati nelle pagine web e sulla loro importanza. Bisogna anche stabilire una re-visit policy, ovvero decidere quanto spesso controllare un sito web per monitorare la sua evoluzione e i suoi contenuti.

Il maggior ostacolo alla realizzazione di un archivio web che possa contenere tutte le conoscenze presenti in rete è rappresentato dal cosiddetto deep web. Si tratta di quella porzione del World Wide Web che non viene indicizzata dai motori di ricerca, come Chrome o Explorer. Come spiega il Centro di Eccellenza Italiano sulla Conservazione Digitale il deep web rappresenta:

“4.000-5000 del cosiddetto surface web, cioè della parte accessibile, per un volume totale di oltre 10 Petabyte (1016 byte). […] Benché si stiano sviluppando alcuni metodi per penetrare il deep web, la cosa resta ancora complessa e problematica, soprattutto se gli amministratori dei siti non collaborano, o mettono addirittura in atto misure diversive. Resta così condannata all’oblio una parte significativa del nostro universo culturale e documentale”.

Archivi digitali: la nuova frontiera nel campo della ricerca

La Wayback Machine non è l’unico progetto di web archiving degno di nota, anche se sicuramente risulta essere il più sviluppato e il più ambizioso. Oltre all’Internet Archive esistono diverse organizzazioni in tutto il mondo che stanno lavorando alla realizzazione di importanti archivi digitali, come ad esempio la British Library. Quest’importantissima istituzione londinese sta lavorando al UK Web Archive, un’iniziativa che ha come scopo la conservazione dei contenuti presenti nei più importanti siti web del Regno Unito.

Con il passare degli anni gli archivi digitali come la Wayback Machine o l’UK Web Archiving diventeranno uno strumento sempre più importante per ricercatori, storici e studiosi. Essi cambieranno il mondo della ricerca storica e scientifica, contribuendo così ad un ulteriore sviluppo e semplificazione del processo di web archiving.

 

A cura di

Valeria Vinzia


FONTI:

CREDITS: