Dentro la biblioteca di internet

Come funziona l’Internet Archive, la biblioteca di Alessandria del web. Storia del progetto, hardware e tecnologia, clienti e curiosità.

di Nicola D’Agostino

In un’intervista del 2002 con The New Scientist Brewster Kahle ha affermato:

“I siti web sono come le sabbie mobili. La vita media di una pagina web è di cento giorni. Dopodiché viene cambiata o sparisce. Quindi tutta la nostra società intellettuale è costruita sulla sabbia”.

È per questo che nel 1996 Kahle, che viene dall’MIT, ha creato The Internet Archive, un’organizzazione no profit il cui obiettivo è offrire una memoria storica del world wide web a ricercatori, storici e studiosi. The Internet Archive ha aperto ufficialmente solo attorno al 2000 ma in questi anni si è conquistata un posto indiscusso come l’archivio principale non solo di pagine web ma in generale di testi, immagini, musica e video e persino software di importanza storica e culturale.

Brewster Kahle con un rack di server di archive.org

In un’intervista Gordon Mohr, addetto tecnico in capo, ha spiegato il funzionamento di questo ciclopico archivio, e svelato retroscena, partnership e meccanismi per gestire tutti quei dati.

Gli utenti speciali

L’Internet Archive ed in particolare la Wayback Machine, la sua “macchina del tempo” sono aperti a chiunque ma ci sono anche altri servizi mirati richiesti da utenti speciali. Ad esempio diverse biblioteche e archivi nazionali richiedono copie settoriali a loro utili di parte del web: Mohr cita la Library of Congress statunitense che ha commissionato il crawling di siti di news, governativi e politici ma anche le Biblioteche nazionali dell’Australia, Irlanda, Francia e persino Italia hanno o hanno avuto specifici progetti in corso.

Un cluster in crescita

A monte però c’è un’organizzazione che comunque salva il salvabile rima che scompaia: Mohr ricorda che quando un’azienda o un’organizzazione sparisce dopo un po’ sparisce anche la sua presenza sul web e quindi tempismo e capacità di archiviazione sono fondamentali.
L’internet Archive come Google ha scelto un approccio poco sofisticato e votato all’economicità e ridondanza. Grosso modo sono impiegati un migliaio di computer organizzati in cluster a gruppi di 40 computer. Ci sono poi 11 rack speciali per gli utenti di cui sopra che hanno ognuno una quarantina di server 1U con quattro dischi.

Come dimensione complessiva tutto l’archivio web dal 1996 ad oggi pare occupi circa 1,2 PetaByte ma il cluster è in crescita continua e ogni mese (o meno) viene acquistato e si aggiunge un nuovo rack ed esattamente come a Mountain View si tratta di comune hardware pilotato da software open source o sviluppato internamente che pilota dischi acquistati al prezzo di mercato (o anche meno).
Chi si immagina sofisticate configurazione RAID rimarrà deluso: l’Internet Archive confida nel mirroring a coppie di dischi o di computer.

Vantaggi e svantaggi

Mohr evidenzia come per la grandezza del datacenter e l’impostazione poco sofisticata i dati dell’Internet Archive siano in uno stato fluido: c’è sempre qualche computer che si sta spostando o anche rotto e questo è il motivo per cui una ricerca tra i siti web del 2004 può dare oggi un risultato e tra qualche giorno uno diverso, più o meno ricco.
La sua parte in questo stato transitorio la fanno anche gli upgrade software e del sistema operativo, che è storicamente di tipo Linux. Inizialmente il datacenter usava esclusivamente una versione di Red Hat: da questa si è passati a Debian e oggi quasi esclusivamente a Ubuntu. Proprio l’aggiornamento e parificazione di tutto l’hardware a una versione unica di Ubuntu ha reso indisponibile una buona parte dell’indice della WayBack machine per alcuni giorni.

Backup? Ad Alessandria

Un’altra chicca rivelata da Mohr è che l’Internet Archive nella sua sede centrale (a San Francisco) al di là dei suoi migliaia e migliaia di dischi sempre in funzione non ha una copia di sicurezza magari su supporti diversi. C’è però un backup remoto molto molto particolare in… Egitto.
L’internet Archive ha una partnership con la Biblioteca di Alessandria che in due occasioni ha ricevuto una copia completa di tutto quanto accumulato dall’organizzazione di Kahle. È successo nel 2002 e poi, come integrazione, nel 2006. I dati non sono stati trasmessi ma spediti fisicamente con tutti i computer: si è caricato un aereo di computer funzionanti prelevati dal centro dati a San Francisco e trapiantati in Egitto dove sono stati riattivati.
La copia in questo paese ha ovviamente anche ragioni simboliche. La distribuzione e condivisione delle informazioni è un aspetto programmatico e insito nel progetto e il rimando alla mitica biblioteca di Alessandria è palese, sin dal software che archivia le pagine del web che poi finiscono nell’Internet Archive, che si chiama non a caso Alexa.

La macchina del tempo

Uno degli strumenti più utili dell’Internet Archive e vera interfaccia della memoria storia del web è la Wayback Machine. Si tratta di un motore di ricerca che recupera e mostra tutte le versioni archiviate di una pagina web in un archivio che al momento conta 85 miliardi di pagine dal 1996 sino ad oggi.
Per fare un “salto nel passato” del web basta digitare un indirizzo e controllare cosa e quanto è disponibile.

La Wayback Machine di Archive.org

Il Petabox

Uno degli oggetti più affascinanti del datacenter dell’Internet Archive è un rack custom progettato dallo staff interno e pensato per archiviare ed elaborare un milione di GigaByte di informazioni. Gli obiettivi primari erano un basso consumo (6kW per rack), un’alta densità di archiviazione (dai 100 TB in sù per rack), potenza equivalente a 800 PC, resistenza, facile trasportabilità e facile uso anche da un container. Il risultato è il Petabox di cui nell’Internet Archive ce ne sono ormai parecchi e che ha avuto talmente successo che è stata creata un’azienda ex novo per commercializzarli.

Una versione di questo articolo è stata pubblicata su “Hacker Journal” n. 157 del 07/08/2008