Comment archiver une page Web dans archive.today en utilisant wget ou curl?

Pour archiver une page Web dans la Wayback Machine de Internet Archive, je fais généralement:

wget --spider "https://web.archive.org/save/https://example.com" 

Existe-t-il une méthode similaire que je peux utiliser pour archiver des pages Web dans archive.today ?

Réponse

Jai analysé la demande denregistrement manuel dun fichier (les outils de développement de Firefox « ont une fonction pratique » Copier comme cURL « pour cela – voir le bas de larticle pour la requête réelle). Il inclut beaucoup de fluff (agent utilisateur, cookies, origine, etc.) qui peuvent être omis, et échapper les barres obliques dans lURL nest pas non plus nécessaire. La simple exécution de

curl -v "https://archive.vn/submit/" \ --data-raw "url=https://webapps.stackexchange.com/users/218839/flux" 

suffit déjà pour archiver votre page de profil . Initialement , la réponse était du HTML contenant un lien « travail en cours »: https://archive.vn/wip/dk2xB que vous pouvez utiliser pour suivre la progression et / ou comme lien final.

<html><body><script>setInterval(function(){document.location.replace("https://archive.vn/wip/dk2xB")},1000)</script><div> <img width="48" height="48" style="vertical-align:middle" src="https://archive.vn/loading.gif"/> <span style="vertical-align:middle;font-size:48px;padding-left:5px">Loading</span> <hr/> </div></body></html> 

Maintenant que je réessaye, quelques heures plus tard, je ne pas obtenir de HTML comme réponse mais un HTTP 302 (trouvé) avec lURL finale dans len-tête Location: https://archive.vn/dk2xB .

Voici à quoi ressemble la page archivée:

entrez la description de limage ici


La requête cURL dorigine est

curl "https://archive.vn/submit/"\ -H "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:81.0) Gecko/20100101 Firefox/81.0"\ -H "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"\ -H "Accept-Language: en-US,en;q=0.5"\ --compressed\ -H "Content-Type: application/x-www-form-urlencoded"\ -H "Origin: https://archive.vn"\ -H "Connection: keep-alive"\ -H "Referer: https://archive.vn/"\ -H "Cookie: _ga=GA1.2.661111166.1603535444"\ -H "Upgrade-Insecure-Requests: 1"\ -H "TE: Trailers"\ --data-raw "submitid=1Z%2FjKja%2BtkGo%2BmykS2%2BrMYgTje4YZV9xk8OIlwY4NT2mLExajP7ZRmnTbJku2aMX&url=https%3A%2F%2Fwebapps.stackexchange.com%2Fquestions%2F148066%2Fhow-do-i-archive-a-webpage-to-archive-today-using-wget-or-curl" 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *