18.8.22

Come recuperare un sito cancellato, offline, modificato o chiuso? Quattro soluzioni

In questo post della rubrica TrikTèk e nel video collegato spieghiamo come recuperare un sito cancellato, chiuso, che non è più online o che è stato modificato (per esempio a seguito dell’acquisto del dominio da parte di qualcun altro), o almeno alcune pagine di esso usando due servizi online e, come terzo metodo, combinandoli insieme (o ricavando url da altre fonti). Un quarto metodo, più ovvio ma meno efficace, potrebbe essere quello di usare la cache dei motori di ricerca…





Un giorno un amico con un certo rammarico mi dice: “curavo un sito web ma poi non me ne sono occupato più e il dominio è stato comprato da altri”. Allora gli ho chiesto subito se aveva provato a usare “The  Way Back Machine”, una macchina del tempo del web che, dopo aver inserito uno specifico indirizzo, ci mostra diverse versioni della stessa pagina “fotografate” in momenti diversi.

Attingendo dal linguaggio della filologia possiamo definirlo un archivio di varianti temporali” di una specifica pagina.

1) Partiamo dunque dal primo metodo: prendete l’url della pagina principale (o di una pagina specifica) e incollatelo nella buca di ricerca della Way Back Machine. Se la pagina è stata archiviata vedrete una “timeline”. 

Dopo aver cliccato sull’anno in cui la pagina è stata scansionata apparirà, sotto, un calendario con le date specifiche in cui sono avvenute le scansioni. Se non siete in possesso di altri indirizzi url oltre a quello della homepage da inserire direttamente potete provare “navigando” a ritroso, e quindi cliccando sui link che trovate nella homepage, oppure digitando nella barra degli indirizzi del vostro browser web.archive.org/*/www.nomediunsito.com/* , ottenendo così tutte le pagine scansionate di quel sito.





2) Analogamente a quanto visto prima possiamo usare un altro servizio simile (ma secondo la mia esperienza meno efficace del precedente), denominatoArchive.Today

Una delle differenze con la precedente “macchina del tempo” analizzata sta nella presentazione dei risultati della ricerca: qui non troverete subito le diverse “varianti temporali” di un singolo indirizzo, se inserite la homepage, ma tutte le pagine di un sito che sono state “scannerizzate” e quindi presenti nel database…

Infatti, come si vede nella foto, per esempio ce ne sono svariate del sito del Corriere della Sera, mentre del sito di cui mi parlava il mio amico (quello citato all’inizio di questo post) solo la homepage del 2016. 

Come si vede nella foto (potete ingrandirla cliccandoci sopra) la stessa opzione che mostra tutte le url archiviate si ha anche sull'altro servizio cliccando sull'apposito bottone (oppure sempre digitando nella barra degli indirizzi del vostro browser web.archive.org/*/www.nomediunsito.com/* ).





Una volta aperta la homepage del 2016 provo dunque, come ho fatto prima, a “navigare a ritroso” cliccando sui diversi link che rimandano alle pagine del sito che mi interessa recuperare: purtroppo nessuna di quelle su cui clicco è presente.

Mentre nella Way Back Machine si aprirebbero altre scansioni di “varianti temporali”, oppure uscirebbe un messaggio che mi indica che non sono presenti scansioni di quella pagina, Archive.Today mi rimanda a quello specifico url ancora online. Purtroppo però a quello specifico indirizzo trovo un messaggio di errore: questo perché il nuovo gestore del sito ha cancellato i contenuti e gli url vecchi, quelli che interessavano al mio amico… Ma non tutto è perduto!

3) Infatti combinando i due strumenti citati riesco a recuperare altre pagine del vecchio sito: prendo quegli indirizzi non più funzionanti, quelli ricavati cliccando sulla scansione del 2016 di
Archive.Today, e li incollo nella buca di ricerca della Way Back Machine, come mostro nel video qui sotto: questo può essere molto utile soprattutto nel caso di un sito con tantissime url, perché sarebbe più difficile scorrere l'intero elenco e aprirle una a una, mentre magari ce ne interessano solo alcune specifiche. Se invece vi interessa recuperarle tutte, ottenete gli "elenchi" delle url scansionate sui due diversi archivi e recuperatele tutte!

Per altri siti potrebbe funzionare anche l’inverso, almeno in teoria, e quindi si potrebbe provare a ricavare delle urlnon scansionate” (a cui abbiamo acceduto cliccando sui link delle pagine che invece sono scansionate), oppure scansionate in un periodo che non ci è utile, dalla prima macchina del tempo (o da altre fonti, come dei link non più funzionanti presenti in una mail o su un social) e incollarle nella seconda (o in altri servizi simili). 

Se avete dei suggerimenti o ci siete riusciti anche voi, per favore, segnalatecelo nei commenti, via social, via mail o come vi pare: contribuiamo tutti al sapere collettivo!!







4) Passiamo ora a parlare della copia cache dei motori di ricerca, e in particolare di quelle di Google e Bing. Quando facciamo una ricerca su un motore di ricerca i risultati che ci vengono proposti non sono esattamente quello che è contenuto su un sito web in quel momento, "in diretta" per capirci: in realtà ciò che viene “immagazzinato” dai motori di ricerca, e i conseguenti risultati che ci vengono restituiti, sono delle “scansioni”, delle “fotografie” di una pagina web in un dato momento. Per alcuni siti l'aggiornamento di quelle "fotografie" è praticamente istantaneo, per altri siti invece le "scansioni" possono risalire a molti giorni prima dalla pubblicazione dell'ultimo aggiornamento...

Per cui quando accediamo alla cache di una pagina (ciò si fa anteponendo “cache:” all’indirizzo o cliccando sulla freccetta che punta verso il basso, come si vede in foto e nel video, e quindi digitando "cache:www.nomediunsito.com") vedremo solo l’ultima scansione del sito, non le precedenti. Nel caso del sito preso come esempio per questo post si trovano le scansioni fatte oggi (nel caso di Google) e di cinque giorni fa (nel caso di Bing), mentre al mio amico (e alla maggior parte di voi che state leggendo pure, immagino) interessa vedere come quel sito era diversi anni fa... Inoltre le copie cache potrebbero anche essere rimosse.



Aggiornamento del 2 Dicembre 2023: attualmente Google (in alto a sinistra) non permette di mostrare la cache direttamente dai risultati di ricerca, ma solo anteponendo "cache:" prima di un url nella buca di ricerca. Invece Bing (in basso a sinistra) lo permette ancora.


Spero che questo post sia stato utile visto che siete giunti fin qui, e che siate riusciti a recuperare almeno qualcosa del sito che vi interessa… Vi invito ancora una volta a non esitare a chiedere ulteriori suggerimenti, chiarimenti, oppure a fare critiche, precisazioni o a fornire suggerimenti!

The FakeBot 1 


ultima modifica 02/12/2023 18:19

1 commento:

  1. Guarda che si possono anche ottenere direttamente tutte le url scansionate su Internet Archive, digitando: web.archive.org/*/www.nomediunsito.com/* così non le devi "ricavare" da Archive.today (anche se potrebbero essere salvati diverse "varianti temporali" della medesima pagina ; )

    RispondiElimina