개요
wget은 백그라운드에서 실행될 수 있어 네트워크 연결이 끊어져도 다운로드를 재개할 수 있는 등 안정적인 파일 전송에 적합합니다. `-p` 옵션은 단일 HTML 페이지를 오프라인에서 완벽하게 탐색할 수 있도록 하는 데 유용합니다.
주요 특징
- HTTP, HTTPS, FTP 프로토콜 지원
- 비대화형 다운로드 (백그라운드 실행 가능)
- 다운로드 재개 기능 지원
- 재귀적 다운로드 및 웹사이트 미러링 기능
- 페이지 필수 파일 동시 다운로드 (-p 옵션)
주요 옵션
wget은 다양한 옵션을 통해 다운로드 방식을 세밀하게 제어할 수 있습니다.
다운로드 제어
생성된 명령어:
명령어를 조합해 보세요.
설명:
`wget` 명령어를 실행합니다.
위 옵션들을 조합하여 AI와 함께 가상으로 명령어를 실행해 보세요.
사용 예시
wget의 다양한 활용법을 통해 웹 콘텐츠를 효율적으로 다운로드할 수 있습니다.
단일 웹 페이지와 필수 파일 다운로드
wget -p https://example.com/mypage.html
지정된 HTML 페이지와 해당 페이지를 올바르게 표시하는 데 필요한 모든 이미지, CSS, JavaScript 파일 등을 다운로드합니다.
오프라인 보기를 위해 링크 변환 포함
wget -p -k https://example.com/mypage.html
페이지 필수 파일과 함께 다운로드된 HTML 문서 내의 링크를 로컬 파일 경로로 변환하여 오프라인에서 탐색 가능하게 합니다.
전체 웹사이트 미러링 (페이지 필수 파일 포함)
wget -r -np -p -k https://example.com/
재귀적으로 웹사이트를 다운로드하며, 상위 디렉토리로 이동하지 않고, 모든 페이지 필수 파일을 포함하며, 링크를 로컬 경로로 변환합니다.
특정 파일 다운로드 및 이름 지정
wget -O newname.zip https://example.com/archive.zip
원격 파일을 다운로드하여 로컬에 지정된 이름으로 저장합니다.
다운로드 속도 제한
wget --limit-rate=200k https://example.com/largefile.zip
서버에 과도한 부하를 주지 않기 위해 다운로드 속도를 200KB/s로 제한합니다.
팁 & 주의사항
wget을 사용할 때는 웹 서버에 대한 예의와 효율적인 사용을 고려하는 것이 중요합니다.
유용한 팁
- **robots.txt 존중**: 대부분의 웹사이트는 `robots.txt` 파일을 통해 크롤링 규칙을 명시합니다. `wget`은 기본적으로 이를 존중하지만, `--execute=robots=off` 옵션으로 무시할 수도 있습니다 (권장하지 않음).
- **다운로드 속도 제한**: `--limit-rate` 옵션을 사용하여 다운로드 속도를 제한하면 서버에 부담을 덜 줄 수 있습니다.
- **오프라인 미러링**: `-r -np -p -k` 옵션 조합은 웹사이트를 오프라인에서 탐색 가능한 형태로 미러링하는 데 매우 유용합니다.
- **중복 다운로드 방지**: `-nc` (no-clobber) 옵션을 사용하면 이미 존재하는 파일을 덮어쓰지 않고 건너뛸 수 있습니다.
- **백그라운드 실행**: `nohup wget ... &` 명령을 사용하여 터미널을 닫아도 다운로드가 계속되도록 할 수 있습니다.
주의사항
- **서버 부하**: 재귀적 다운로드나 대규모 미러링은 웹 서버에 상당한 부하를 줄 수 있으므로, 허가 없이 남용하지 않도록 주의해야 합니다.
- **저작권 및 이용 약관**: 다운로드하는 콘텐츠의 저작권 및 웹사이트의 이용 약관을 항상 확인해야 합니다.
- **디스크 공간**: 대규모 웹사이트를 다운로드할 경우 상당한 디스크 공간이 필요할 수 있으므로, 미리 확인하는 것이 좋습니다.