概述
wget -r 自動掃描並下載網頁伺服器上的文件和目錄到指定深度。這可用於網站鏡像、離線瀏覽、收集特定類型文件等。
主要功能
- 網站整體鏡像
- 跟蹤指定深度內的鏈接
- 文件類型過濾
- 轉換鏈接以供離線瀏覽
主要選項
在使用 wget -r 時,可以精細控制遞歸下載行為的主要選項。
遞歸下載控制
保存與輸出
生成的命令:
請試著組合命令。
這個 Django 應用程序是一個技術指南文檔,旨在為用戶輕鬆解釋 Linux 的各種命令。
`wget` 執行命令。
請將上述選項組合在一起,與 AI 一同虛擬執行命令。
使用範例
使用 wget -r 命令的實際範例。
基本遞歸下載
wget -r https://example.com/docs/
遞歸下載指定 URL 的所有內容。
網站鏡像(限制深度,轉換鏈接)
wget -r -l 2 -k -p https://example.com/
下載網站到深度 2,並將鏈接轉換為本地路徑,以便離線查看。
僅下載特定文件類型
wget -r -A "*.pdf,*.doc" https://example.com/files/
遞歸下載指定目錄中的 PDF 和 DOC 文件。
下載時不訪問父目錄
wget -r -np https://example.com/data/
僅在當前目錄內遞歸下載,不訪問父目錄。
指定下載目錄
wget -r -P /home/user/websites https://example.com/
將所有下載的文件保存到指定的本地目錄(`/home/user/websites`)。
限制下載速度和設置等待時間
wget -r --limit-rate=200k --wait=1 https://example.com/large-site/
將下載速度限制為 200KB/s,並在每次請求之間等待 1 秒,以減少伺服器負載。
提示與注意事項
使用 wget -r 時,請注意不要對伺服器造成過度負載,並通過僅下載所需文件來提高效率。
有用提示
- 使用 `--wait` 選項減少伺服器負載:短時間內發送大量請求可能會給伺服器帶來壓力,因此建議使用 `--wait=1`(等待 1 秒)等選項。
- 使用 `--limit-rate` 限制帶寬:可以限制下載速度,避免過度使用網絡帶寬。
- 遵守 robots.txt 協議:大多數網站通過 `robots.txt` 文件指定爬取規則。wget 默認遵守,但也可以使用 `--execute=robots=off` 選項忽略(不推薦)。
- 為防止無限循環,請使用 `-l`(深度)和 `-np`(禁止訪問父目錄)選項:錯誤的設置可能導致無限循環或下載大量不需要的文件。
- 為離線瀏覽,請同時使用 `-k`(轉換鏈接)和 `-p`(下載頁面必需文件)選項:這兩個選項對於在本地順暢瀏覽下載的網站至關重要。