Wie archiviere ich eine Webseite in archive.today mit wget oder curl?

Um eine Webseite in der Wayback-Maschine des Internetarchivs zu archivieren, mache ich normalerweise Folgendes:

wget --spider "https://web.archive.org/save/https://example.com" 

Gibt es eine ähnliche Methode, mit der ich Webseiten in archive.today archivieren kann?

Antwort

Ich habe die Anforderung zum manuellen Speichern einer Datei analysiert (die Entwicklertools von Firefox haben hierfür eine praktische Funktion „Als cURL kopieren“ – siehe unten im Beitrag für die eigentliche Anfrage). Es enthält eine Menge Flusen (User Agent, Cookies, Herkunft usw.), die weggelassen werden können, und das Entfernen der Schrägstriche in der URL ist ebenfalls nicht erforderlich. Das einfache Ausführen von

curl -v "https://archive.vn/submit/" \ --data-raw "url=https://webapps.stackexchange.com/users/218839/flux" 

reicht bereits aus, um Ihre Profilseite zu archivieren. Anfänglich war die Antwort HTML-Code mit einem Link „In Bearbeitung“: https://archive.vn/wip/dk2xB mit dem Sie den Fortschritt und / oder als endgültigen Link überwachen können.

<html><body><script>setInterval(function(){document.location.replace("https://archive.vn/wip/dk2xB")},1000)</script><div> <img width="48" height="48" style="vertical-align:middle" src="https://archive.vn/loading.gif"/> <span style="vertical-align:middle;font-size:48px;padding-left:5px">Loading</span> <hr/> </div></body></html> 

Jetzt, wo ich es ein paar Stunden später erneut versuche, habe ich es Erhalten Sie kein HTML als Antwort, sondern ein HTTP 302 (gefunden) mit der endgültigen URL im Standortheader: https://archive.vn/dk2xB .

So sieht die archivierte Seite aus:

Geben Sie hier die Bildbeschreibung ein


Die ursprüngliche cURL-Anforderung lautet

curl "https://archive.vn/submit/"\ -H "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:81.0) Gecko/20100101 Firefox/81.0"\ -H "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"\ -H "Accept-Language: en-US,en;q=0.5"\ --compressed\ -H "Content-Type: application/x-www-form-urlencoded"\ -H "Origin: https://archive.vn"\ -H "Connection: keep-alive"\ -H "Referer: https://archive.vn/"\ -H "Cookie: _ga=GA1.2.661111166.1603535444"\ -H "Upgrade-Insecure-Requests: 1"\ -H "TE: Trailers"\ --data-raw "submitid=1Z%2FjKja%2BtkGo%2BmykS2%2BrMYgTje4YZV9xk8OIlwY4NT2mLExajP7ZRmnTbJku2aMX&url=https%3A%2F%2Fwebapps.stackexchange.com%2Fquestions%2F148066%2Fhow-do-i-archive-a-webpage-to-archive-today-using-wget-or-curl" 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.