> 네트워크 관리 > wget

wget -r: 웹사이트 재귀적 다운로드

wget -r은 웹사이트나 특정 디렉토리의 콘텐츠를 로컬 시스템으로 재귀적으로 다운로드하는 데 사용되는 강력한 명령어입니다. 링크를 따라가며 지정된 깊이까지 모든 파일과 디렉토리를 복사하여 오프라인에서 웹사이트를 탐색하거나 백업하는 데 유용합니다.

개요

wget -r은 웹 서버에서 파일과 디렉토리를 지정된 깊이까지 자동으로 탐색하고 다운로드합니다. 이는 웹사이트 미러링, 오프라인 브라우징, 특정 유형의 파일 수집 등에 활용될 수 있습니다.

주요 기능

  • 웹사이트 전체 미러링
  • 지정된 깊이까지 링크 추적
  • 파일 형식 필터링
  • 오프라인 브라우징을 위한 링크 변환

주요 옵션

wget -r 사용 시 재귀 다운로드 동작을 세밀하게 제어할 수 있는 주요 옵션들입니다.

재귀 다운로드 제어

저장 및 출력

생성된 명령어:

명령어를 조합해 보세요.

설명:

`wget` 명령어를 실행합니다.

위 옵션들을 조합하여 AI와 함께 가상으로 명령어를 실행해 보세요.

사용 예시

wget -r 명령어를 활용한 실제 사용 예시들입니다.

기본 재귀 다운로드

wget -r https://example.com/docs/

지정된 URL의 모든 콘텐츠를 재귀적으로 다운로드합니다.

웹사이트 미러링 (깊이 제한, 링크 변환)

wget -r -l 2 -k -p https://example.com/

웹사이트를 깊이 2단계까지 다운로드하고, 오프라인에서 볼 수 있도록 링크를 로컬 경로로 변환합니다.

특정 파일 형식만 다운로드

wget -r -A "*.pdf,*.doc" https://example.com/files/

지정된 디렉토리에서 PDF 및 DOC 파일만 재귀적으로 다운로드합니다.

상위 디렉토리로 이동하지 않고 다운로드

wget -r -np https://example.com/data/

현재 디렉토리 내에서만 재귀적으로 다운로드하고, 상위 디렉토리로 이동하지 않습니다.

다운로드 디렉토리 지정

wget -r -P /home/user/websites https://example.com/

다운로드된 모든 파일을 특정 로컬 디렉토리(`/home/user/websites`)에 저장합니다.

다운로드 속도 제한 및 대기 시간 설정

wget -r --limit-rate=200k --wait=1 https://example.com/large-site/

다운로드 속도를 200KB/s로 제한하고, 각 요청 사이에 1초씩 대기하여 서버 부하를 줄입니다.

팁 & 주의사항

wget -r 사용 시 서버에 과도한 부하를 주지 않도록 주의하고, 필요한 파일만 다운로드하여 효율성을 높이는 것이 중요합니다.

유용한 팁

  • `--wait` 옵션으로 서버 부하 줄이기: 짧은 간격으로 많은 요청을 보내면 서버에 부담을 줄 수 있으므로, `--wait=1` (1초 대기)과 같은 옵션을 사용하는 것이 좋습니다.
  • `--limit-rate`로 대역폭 제한: 네트워크 대역폭을 과도하게 사용하지 않도록 다운로드 속도를 제한할 수 있습니다.
  • 로봇 배제 표준(`robots.txt`) 준수: 대부분의 웹사이트는 `robots.txt` 파일을 통해 크롤링 규칙을 명시합니다. `wget`은 기본적으로 이를 준수하지만, `--execute=robots=off` 옵션으로 무시할 수도 있습니다 (권장하지 않음).
  • 무한 루프 방지를 위해 `-l` (깊이) 및 `-np` (상위 디렉토리 이동 금지) 옵션 활용: 잘못된 설정은 무한 루프에 빠지거나 원치 않는 많은 파일을 다운로드할 수 있습니다.
  • 오프라인 브라우징을 위해 `-k` (링크 변환) 및 `-p` (페이지 필수 요소) 옵션 함께 사용: 이 두 옵션은 다운로드된 웹사이트를 로컬에서 원활하게 탐색하는 데 필수적입니다.

동일 카테고리 명령어