wget 또는 curl을 사용하여 어떻게 웹 페이지를 archive.today에 보관합니까?

Internet Archive의 Wayback Machine에 웹 페이지를 보관하려면 일반적으로 다음을 수행합니다.

wget --spider "https://web.archive.org/save/https://example.com" 

웹 페이지를 archive.today 에 보관하는 데 사용할 수있는 유사한 방법이 있습니까?

답변

파일을 수동으로 저장하라는 요청을 분석했습니다 (Firefox “개발자 도구에는이를위한 편리한”cURL로 복사 “기능이 있습니다. 게시물 하단에서 실제 요청) 생략 할 수있는 많은 fluff (사용자 에이전트, 쿠키, 출처 등)가 포함되어 있으며 URL에서 슬래시를 이스케이프 할 필요도 없습니다. 간단히 실행

curl -v "https://archive.vn/submit/" \ --data-raw "url=https://webapps.stackexchange.com/users/218839/flux" 

이미 프로필 페이지 를 보관하기에 충분합니다. 처음에 응답은 진행중인 작업링크가 포함 된 HTML이었습니다. https://archive.vn/wip/dk2xB 진행 상황을 모니터링하거나 최종 링크로 사용할 수 있습니다.

<html><body><script>setInterval(function(){document.location.replace("https://archive.vn/wip/dk2xB")},1000)</script><div> <img width="48" height="48" style="vertical-align:middle" src="https://archive.vn/loading.gif"/> <span style="vertical-align:middle;font-size:48px;padding-left:5px">Loading</span> <hr/> </div></body></html> 

이제 몇 시간 후에 다시 시도합니다. HTML을 응답으로 가져 오지 않고 위치 헤더에 최종 URL이있는 HTTP 302 (찾음) : https://archive.vn/dk2xB .

보관 된 페이지는 다음과 같이 표시됩니다.

여기에 이미지 설명 입력


원래 cURL 요청은

curl "https://archive.vn/submit/"\ -H "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:81.0) Gecko/20100101 Firefox/81.0"\ -H "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"\ -H "Accept-Language: en-US,en;q=0.5"\ --compressed\ -H "Content-Type: application/x-www-form-urlencoded"\ -H "Origin: https://archive.vn"\ -H "Connection: keep-alive"\ -H "Referer: https://archive.vn/"\ -H "Cookie: _ga=GA1.2.661111166.1603535444"\ -H "Upgrade-Insecure-Requests: 1"\ -H "TE: Trailers"\ --data-raw "submitid=1Z%2FjKja%2BtkGo%2BmykS2%2BrMYgTje4YZV9xk8OIlwY4NT2mLExajP7ZRmnTbJku2aMX&url=https%3A%2F%2Fwebapps.stackexchange.com%2Fquestions%2F148066%2Fhow-do-i-archive-a-webpage-to-archive-today-using-wget-or-curl" 

입니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다