首頁 > 網路管理 > wget

wget:下載網頁和檔案

wget 是一個強大的命令列工具,用於使用 HTTP、HTTPS 和 FTP 協定從網頁伺服器非互動式地下載檔案和網頁。特別是使用 `-p` (page-requisites) 選項時,它會一併下載正確顯示 HTML 頁面所需的所有相關檔案(圖像、CSS、JavaScript 等),以便離線檢視頁面。

概述

wget 適合穩定地傳輸檔案,因為它可以從後台執行,並且即使網路連接中斷也能恢復下載。`-p` 選項對於下載單個 HTML 頁面以便離線完整瀏覽非常有用。

主要特點

  • 支援 HTTP、HTTPS、FTP 協定
  • 非互動式下載(可從後台執行)
  • 支援斷點續傳功能
  • 遞迴下載和網站鏡像功能
  • 同時下載頁面必需檔案(-p 選項)

主要選項

wget 提供了各種選項,可對下載方式進行精細控制。

下載控制

生成的命令:

請試著組合命令。

這個 Django 應用程序是一個技術指南文檔,旨在為用戶輕鬆解釋 Linux 的各種命令。

`wget` 執行命令。

請將上述選項組合在一起,與 AI 一同虛擬執行命令。

使用範例

透過 wget 的各種用法,可以有效地下載網頁內容。

下載單個網頁和必需檔案

wget -p https://example.com/mypage.html

下載指定的 HTML 頁面以及正確顯示該頁面所需的所有圖像、CSS、JavaScript 等檔案。

包含連結轉換以供離線檢視

wget -p -k https://example.com/mypage.html

與頁面必需檔案一起下載,並將下載的 HTML 文件中的連結轉換為本地檔案路徑,以便離線瀏覽。

鏡像整個網站(包含頁面必需檔案)

wget -r -np -p -k https://example.com/

遞迴下載網站,不移動到上層目錄,包含所有頁面必需檔案,並將連結轉換為本地路徑。

下載特定檔案並命名

wget -O newname.zip https://example.com/archive.zip

下載遠端檔案並將其儲存為指定的本地名稱。

限制下載速度

wget --limit-rate=200k https://example.com/largefile.zip

將下載速度限制為 200KB/s,以避免對伺服器造成過度負載。

提示與注意事項

使用 wget 時,尊重網頁伺服器並有效使用非常重要。

實用提示

  • **尊重 robots.txt**:大多數網站透過 `robots.txt` 檔案指定爬蟲規則。wget 預設會尊重這些規則,但您也可以使用 `--execute=robots=off` 選項來忽略它(不建議)。
  • **限制下載速度**:使用 `--limit-rate` 選項限制下載速度,可以減輕伺服器的負擔。
  • **離線鏡像**:`-r -np -p -k` 選項組合對於將網站鏡像為可離線瀏覽的形式非常有用。
  • **防止重複下載**:使用 `-nc` (no-clobber) 選項,可以避免覆蓋已存在的檔案。
  • **後台執行**:使用 `nohup wget ... &` 命令,可以在關閉終端後繼續下載。

注意事項

  • **伺服器負載**:遞迴下載或大規模鏡像可能會對網頁伺服器造成相當大的負載,請注意不要未經授權濫用。
  • **版權與使用條款**:請務必檢查您下載內容的版權和網站的使用條款。
  • **磁碟空間**:下載大型網站可能需要大量的磁碟空間,建議事先確認。

相同類別命令