Internet Archive e la Wayback Machine

L’Internet Archive è sia un ENORME ammasso di dati, sia un’organizzazione no-profit la cui missione è fornire “accesso universale a tutta la conoscenza.” O anche entrambe le cose. Come parte della loro missione, l’Internet Archive ha scansionato il Web per più di 20 anni, facendo copie di pagine Web e preservandole per i posteri. Oggi, circa 280 miliardi di pagine Web da 1,5 miliardi di siti vengono memorizzati sul server dell’IA. Continuate a leggere per imparare come si può accedere a questa sorprendente risorsa che offre una finestra sulla storia della la rete…

Cos’è l’Internet Archive?

L’Internet Archive è stato fondato da Brewster Kahle, un ingegnere informatico che ha contribuito a sviluppare WAIS (Wide Area System Information), un precursore del World Wide Web. Kahle insieme ad altri ha fondato WAIS, Inc., per commercializzare la tecnologia di ricerca testo; i loro clienti includono la campagna presidenziale di Ross Perot nel 1992, l’EPA, la Biblioteca del Congresso, il Dipartimento di Energia, il Wall Street Journal, e l’Enciclopedia Britannica.

WAIS, Inc., è stata venduta ad AOL nel 1995 (che è il motivo per cui probabilmente non avete mai sentito parlare) e Kahle fondò The Internet Archive e il motore di ricerca di Alexa (da non confondere con Alexa di Amazon).

La parte principale di questa massiccia libreria è la Wayback Machine (che i fan di Dr. Peabody e Sherman riconosceranno). Questa consente ai giornalisti, ricercatori, e ai curiosi nostalgici di ricercare vecchie versioni di pagine web, anche se le pagine non esistono più sul Web. Se volete vedere com’era Yahoo.com nell’ottobre 1996, o se volete vedere istantanee di WhiteHouse.gov nel corso del tempo, sono lì.

Permette anche di inserire l’URL di una pagina per l’archiviazione, e ottenere un URL che funzionerà anche se la pagina verrà eliminata o spostata dalla sua sede originaria. Questi collegamenti permanenti sono sempre più importanti. Gli URL del Web hanno guadagnato una diffusa accettazione come citazioni in documenti degli studenti, nelle tesi di dottorato, nelle pubblicazioni di ricerche scientifiche, anche nella documentazione e nelle opinioni processuali. Un errore “404 – not found” è un grosso problema in un documento legale, e la Wayback Machine aiuta a evitare tali problemi. La Wayback Machine può cercare copie archiviate di una pagina mancante semplicemente possedendo il suo URL scomparso.

Per rendere la ricerca di una pagina perduta ancora più facile, un’estensione per il browser è disponibile per Chrome, e un addon per Firefox. Una volta installato, cerca automaticamente l’IA ogni volta che si fininsce in uno dei vari errori di “pagina non trovata” al quale il vostro browser può rimandarvi quando tentate di accedere ad una pagina web. (In termini tecnici, questo sarebbe un numero di errore 404 o 526). Se vengono trovate copie archiviate della pagina, una finestra di notifica consente di scegliere se esplorarle o meno.

Ma aspettate, c’è di più!

Oltre alle pagine Web, l’Internet Archive sta attivamente scansionando libri nei suoi database, molto simile a quello che fa Google Books. Conserva anche le copie dei vecchi videogiochi (e degli emulatori che devono avviare giochi Atari su PC), software, musica, film, video e GIF animate. La sede dell’Internet Archive si trova nella ex Fourth Church of Christ, un edificio neoclassico con colonne greche sulla Funston Avenue, nel distretto di Richmond, San Francisco, California. Nell’ottobre 2016, l’IA conteneva oltre 15 petabyte di dati. Un petabyte è un milione di gigabyte!

Vale la pena sfogliare le “Top Collections” dell’Archivio, dove troverete accurate raccolte riguardanti a una vasta gamma di interessi, tra cui Old Time Radio, Giochi MS-DOS, The Grateful Dead, vecchie riviste, e decine di temi esoterici. Fatemi sapere cosa ci trovate!

1 Comment

  • pietro bognetti 15 April 2017 Reply

    Quante chiacchiere! Ma non sarebbe stato più necessario indicare come si fa ricerca su Internet Archive o, se non è possibile rappresentarlo in questa pagina, indicare dove procurarsi le nozioni più comuni?

Leave a Reply

Your email address will not be published. Required fields are marked *

EmailEmail