首頁 > 網路管理 > wget

wget -r: 網站遞歸下載

wget -r 是一個強大的命令,用於將網站或特定目錄的內容遞歸下載到本地系統。它通過跟蹤鏈接並複製到指定深度,可以方便地離線瀏覽網站或進行備份。

概述

wget -r 自動掃描並下載網頁伺服器上的文件和目錄到指定深度。這可用於網站鏡像、離線瀏覽、收集特定類型文件等。

主要功能

  • 網站整體鏡像
  • 跟蹤指定深度內的鏈接
  • 文件類型過濾
  • 轉換鏈接以供離線瀏覽

主要選項

在使用 wget -r 時,可以精細控制遞歸下載行為的主要選項。

遞歸下載控制

保存與輸出

生成的命令:

請試著組合命令。

這個 Django 應用程序是一個技術指南文檔,旨在為用戶輕鬆解釋 Linux 的各種命令。

`wget` 執行命令。

請將上述選項組合在一起,與 AI 一同虛擬執行命令。

使用範例

使用 wget -r 命令的實際範例。

基本遞歸下載

wget -r https://example.com/docs/

遞歸下載指定 URL 的所有內容。

網站鏡像(限制深度,轉換鏈接)

wget -r -l 2 -k -p https://example.com/

下載網站到深度 2,並將鏈接轉換為本地路徑,以便離線查看。

僅下載特定文件類型

wget -r -A "*.pdf,*.doc" https://example.com/files/

遞歸下載指定目錄中的 PDF 和 DOC 文件。

下載時不訪問父目錄

wget -r -np https://example.com/data/

僅在當前目錄內遞歸下載,不訪問父目錄。

指定下載目錄

wget -r -P /home/user/websites https://example.com/

將所有下載的文件保存到指定的本地目錄(`/home/user/websites`)。

限制下載速度和設置等待時間

wget -r --limit-rate=200k --wait=1 https://example.com/large-site/

將下載速度限制為 200KB/s,並在每次請求之間等待 1 秒,以減少伺服器負載。

提示與注意事項

使用 wget -r 時,請注意不要對伺服器造成過度負載,並通過僅下載所需文件來提高效率。

有用提示

  • 使用 `--wait` 選項減少伺服器負載:短時間內發送大量請求可能會給伺服器帶來壓力,因此建議使用 `--wait=1`(等待 1 秒)等選項。
  • 使用 `--limit-rate` 限制帶寬:可以限制下載速度,避免過度使用網絡帶寬。
  • 遵守 robots.txt 協議:大多數網站通過 `robots.txt` 文件指定爬取規則。wget 默認遵守,但也可以使用 `--execute=robots=off` 選項忽略(不推薦)。
  • 為防止無限循環,請使用 `-l`(深度)和 `-np`(禁止訪問父目錄)選項:錯誤的設置可能導致無限循環或下載大量不需要的文件。
  • 為離線瀏覽,請同時使用 `-k`(轉換鏈接)和 `-p`(下載頁面必需文件)選項:這兩個選項對於在本地順暢瀏覽下載的網站至關重要。

相同類別命令