Kuinka arkistoit verkkosivun tänään archive.talliin wgetin tai curlin avulla?

Verkkosivun arkistoimiseksi Internet-arkiston Wayback Machine -palvelussa teen yleensä:

wget --spider "https://web.archive.org/save/https://example.com" 

Onko olemassa vastaavaa menetelmää, jolla voin arkistoida verkkosivuja archive.today ?

Vastaa

Olen analysoinut tiedoston manuaalisen tallentamisen pyynnön (Firefoxin kehitystyökaluissa on tähän kätevä ”Kopioi käyränä” -toiminto – katso viestin alareunasta Se sisältää paljon nukkaa (käyttäjäagentti, evästeet, alkuperä jne.), jotka voidaan jättää pois, ja URL-osoitteen kauttaviivojen välttäminen ei myöskään ole välttämätöntä. Yksinkertainen suorittaminen

curl -v "https://archive.vn/submit/" \ --data-raw "url=https://webapps.stackexchange.com/users/218839/flux" 

riittää jo profiilisivusi arkistointiin . Alun perin vastaus oli HTML-koodi, joka sisälsi ”keskeneräinen” -linkin: https://archive.vn/wip/dk2xB jota voit käyttää edistymisen seuraamiseen ja / tai viimeisenä linkkinä.

<html><body><script>setInterval(function(){document.location.replace("https://archive.vn/wip/dk2xB")},1000)</script><div> <img width="48" height="48" style="vertical-align:middle" src="https://archive.vn/loading.gif"/> <span style="vertical-align:middle;font-size:48px;padding-left:5px">Loading</span> <hr/> </div></body></html> 

Nyt kun yritän sitä uudelleen, pari tuntia myöhemmin, älä saa HTML-vastausta, mutta HTTP 302 (löydetty), jonka lopullinen URL on Sijainti-otsikossa: https://archive.vn/dk2xB .

Näin arkistoitu sivu näyttää:

kirjoita kuvan kuvaus tähän


Alkuperäinen CURL-pyyntö on

curl "https://archive.vn/submit/"\ -H "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:81.0) Gecko/20100101 Firefox/81.0"\ -H "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"\ -H "Accept-Language: en-US,en;q=0.5"\ --compressed\ -H "Content-Type: application/x-www-form-urlencoded"\ -H "Origin: https://archive.vn"\ -H "Connection: keep-alive"\ -H "Referer: https://archive.vn/"\ -H "Cookie: _ga=GA1.2.661111166.1603535444"\ -H "Upgrade-Insecure-Requests: 1"\ -H "TE: Trailers"\ --data-raw "submitid=1Z%2FjKja%2BtkGo%2BmykS2%2BrMYgTje4YZV9xk8OIlwY4NT2mLExajP7ZRmnTbJku2aMX&url=https%3A%2F%2Fwebapps.stackexchange.com%2Fquestions%2F148066%2Fhow-do-i-archive-a-webpage-to-archive-today-using-wget-or-curl" 

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *