개요
wget -r은 웹 서버에서 파일과 디렉토리를 지정된 깊이까지 자동으로 탐색하고 다운로드합니다. 이는 웹사이트 미러링, 오프라인 브라우징, 특정 유형의 파일 수집 등에 활용될 수 있습니다.
주요 기능
- 웹사이트 전체 미러링
- 지정된 깊이까지 링크 추적
- 파일 형식 필터링
- 오프라인 브라우징을 위한 링크 변환
주요 옵션
wget -r 사용 시 재귀 다운로드 동작을 세밀하게 제어할 수 있는 주요 옵션들입니다.
재귀 다운로드 제어
저장 및 출력
생성된 명령어:
명령어를 조합해 보세요.
설명:
`wget` 명령어를 실행합니다.
위 옵션들을 조합하여 AI와 함께 가상으로 명령어를 실행해 보세요.
사용 예시
wget -r 명령어를 활용한 실제 사용 예시들입니다.
기본 재귀 다운로드
wget -r https://example.com/docs/
지정된 URL의 모든 콘텐츠를 재귀적으로 다운로드합니다.
웹사이트 미러링 (깊이 제한, 링크 변환)
wget -r -l 2 -k -p https://example.com/
웹사이트를 깊이 2단계까지 다운로드하고, 오프라인에서 볼 수 있도록 링크를 로컬 경로로 변환합니다.
특정 파일 형식만 다운로드
wget -r -A "*.pdf,*.doc" https://example.com/files/
지정된 디렉토리에서 PDF 및 DOC 파일만 재귀적으로 다운로드합니다.
상위 디렉토리로 이동하지 않고 다운로드
wget -r -np https://example.com/data/
현재 디렉토리 내에서만 재귀적으로 다운로드하고, 상위 디렉토리로 이동하지 않습니다.
다운로드 디렉토리 지정
wget -r -P /home/user/websites https://example.com/
다운로드된 모든 파일을 특정 로컬 디렉토리(`/home/user/websites`)에 저장합니다.
다운로드 속도 제한 및 대기 시간 설정
wget -r --limit-rate=200k --wait=1 https://example.com/large-site/
다운로드 속도를 200KB/s로 제한하고, 각 요청 사이에 1초씩 대기하여 서버 부하를 줄입니다.
팁 & 주의사항
wget -r 사용 시 서버에 과도한 부하를 주지 않도록 주의하고, 필요한 파일만 다운로드하여 효율성을 높이는 것이 중요합니다.
유용한 팁
- `--wait` 옵션으로 서버 부하 줄이기: 짧은 간격으로 많은 요청을 보내면 서버에 부담을 줄 수 있으므로, `--wait=1` (1초 대기)과 같은 옵션을 사용하는 것이 좋습니다.
- `--limit-rate`로 대역폭 제한: 네트워크 대역폭을 과도하게 사용하지 않도록 다운로드 속도를 제한할 수 있습니다.
- 로봇 배제 표준(`robots.txt`) 준수: 대부분의 웹사이트는 `robots.txt` 파일을 통해 크롤링 규칙을 명시합니다. `wget`은 기본적으로 이를 준수하지만, `--execute=robots=off` 옵션으로 무시할 수도 있습니다 (권장하지 않음).
- 무한 루프 방지를 위해 `-l` (깊이) 및 `-np` (상위 디렉토리 이동 금지) 옵션 활용: 잘못된 설정은 무한 루프에 빠지거나 원치 않는 많은 파일을 다운로드할 수 있습니다.
- 오프라인 브라우징을 위해 `-k` (링크 변환) 및 `-p` (페이지 필수 요소) 옵션 함께 사용: 이 두 옵션은 다운로드된 웹사이트를 로컬에서 원활하게 탐색하는 데 필수적입니다.