> 네트워크 관리 > wget

wget: 웹 페이지 및 파일 다운로드

wget은 HTTP, HTTPS, FTP 프로토콜을 사용하여 웹 서버에서 파일과 웹 페이지를 비대화형으로 다운로드하는 강력한 명령줄 도구입니다. 특히 `-p` (page-requisites) 옵션을 사용하면 HTML 페이지를 올바르게 표시하는 데 필요한 모든 관련 파일(이미지, CSS, JavaScript 등)을 함께 다운로드하여 오프라인에서 페이지를 볼 수 있도록 합니다.

개요

wget은 백그라운드에서 실행될 수 있어 네트워크 연결이 끊어져도 다운로드를 재개할 수 있는 등 안정적인 파일 전송에 적합합니다. `-p` 옵션은 단일 HTML 페이지를 오프라인에서 완벽하게 탐색할 수 있도록 하는 데 유용합니다.

주요 특징

  • HTTP, HTTPS, FTP 프로토콜 지원
  • 비대화형 다운로드 (백그라운드 실행 가능)
  • 다운로드 재개 기능 지원
  • 재귀적 다운로드 및 웹사이트 미러링 기능
  • 페이지 필수 파일 동시 다운로드 (-p 옵션)

주요 옵션

wget은 다양한 옵션을 통해 다운로드 방식을 세밀하게 제어할 수 있습니다.

다운로드 제어

생성된 명령어:

명령어를 조합해 보세요.

설명:

`wget` 명령어를 실행합니다.

위 옵션들을 조합하여 AI와 함께 가상으로 명령어를 실행해 보세요.

사용 예시

wget의 다양한 활용법을 통해 웹 콘텐츠를 효율적으로 다운로드할 수 있습니다.

단일 웹 페이지와 필수 파일 다운로드

wget -p https://example.com/mypage.html

지정된 HTML 페이지와 해당 페이지를 올바르게 표시하는 데 필요한 모든 이미지, CSS, JavaScript 파일 등을 다운로드합니다.

오프라인 보기를 위해 링크 변환 포함

wget -p -k https://example.com/mypage.html

페이지 필수 파일과 함께 다운로드된 HTML 문서 내의 링크를 로컬 파일 경로로 변환하여 오프라인에서 탐색 가능하게 합니다.

전체 웹사이트 미러링 (페이지 필수 파일 포함)

wget -r -np -p -k https://example.com/

재귀적으로 웹사이트를 다운로드하며, 상위 디렉토리로 이동하지 않고, 모든 페이지 필수 파일을 포함하며, 링크를 로컬 경로로 변환합니다.

특정 파일 다운로드 및 이름 지정

wget -O newname.zip https://example.com/archive.zip

원격 파일을 다운로드하여 로컬에 지정된 이름으로 저장합니다.

다운로드 속도 제한

wget --limit-rate=200k https://example.com/largefile.zip

서버에 과도한 부하를 주지 않기 위해 다운로드 속도를 200KB/s로 제한합니다.

팁 & 주의사항

wget을 사용할 때는 웹 서버에 대한 예의와 효율적인 사용을 고려하는 것이 중요합니다.

유용한 팁

  • **robots.txt 존중**: 대부분의 웹사이트는 `robots.txt` 파일을 통해 크롤링 규칙을 명시합니다. `wget`은 기본적으로 이를 존중하지만, `--execute=robots=off` 옵션으로 무시할 수도 있습니다 (권장하지 않음).
  • **다운로드 속도 제한**: `--limit-rate` 옵션을 사용하여 다운로드 속도를 제한하면 서버에 부담을 덜 줄 수 있습니다.
  • **오프라인 미러링**: `-r -np -p -k` 옵션 조합은 웹사이트를 오프라인에서 탐색 가능한 형태로 미러링하는 데 매우 유용합니다.
  • **중복 다운로드 방지**: `-nc` (no-clobber) 옵션을 사용하면 이미 존재하는 파일을 덮어쓰지 않고 건너뛸 수 있습니다.
  • **백그라운드 실행**: `nohup wget ... &` 명령을 사용하여 터미널을 닫아도 다운로드가 계속되도록 할 수 있습니다.

주의사항

  • **서버 부하**: 재귀적 다운로드나 대규모 미러링은 웹 서버에 상당한 부하를 줄 수 있으므로, 허가 없이 남용하지 않도록 주의해야 합니다.
  • **저작권 및 이용 약관**: 다운로드하는 콘텐츠의 저작권 및 웹사이트의 이용 약관을 항상 확인해야 합니다.
  • **디스크 공간**: 대규모 웹사이트를 다운로드할 경우 상당한 디스크 공간이 필요할 수 있으므로, 미리 확인하는 것이 좋습니다.

동일 카테고리 명령어