概述
wget 適合穩定地傳輸檔案,因為它可以從後台執行,並且即使網路連接中斷也能恢復下載。`-p` 選項對於下載單個 HTML 頁面以便離線完整瀏覽非常有用。
主要特點
- 支援 HTTP、HTTPS、FTP 協定
- 非互動式下載(可從後台執行)
- 支援斷點續傳功能
- 遞迴下載和網站鏡像功能
- 同時下載頁面必需檔案(-p 選項)
主要選項
wget 提供了各種選項,可對下載方式進行精細控制。
下載控制
生成的命令:
請試著組合命令。
這個 Django 應用程序是一個技術指南文檔,旨在為用戶輕鬆解釋 Linux 的各種命令。
`wget` 執行命令。
請將上述選項組合在一起,與 AI 一同虛擬執行命令。
使用範例
透過 wget 的各種用法,可以有效地下載網頁內容。
下載單個網頁和必需檔案
wget -p https://example.com/mypage.html
下載指定的 HTML 頁面以及正確顯示該頁面所需的所有圖像、CSS、JavaScript 等檔案。
包含連結轉換以供離線檢視
wget -p -k https://example.com/mypage.html
與頁面必需檔案一起下載,並將下載的 HTML 文件中的連結轉換為本地檔案路徑,以便離線瀏覽。
鏡像整個網站(包含頁面必需檔案)
wget -r -np -p -k https://example.com/
遞迴下載網站,不移動到上層目錄,包含所有頁面必需檔案,並將連結轉換為本地路徑。
下載特定檔案並命名
wget -O newname.zip https://example.com/archive.zip
下載遠端檔案並將其儲存為指定的本地名稱。
限制下載速度
wget --limit-rate=200k https://example.com/largefile.zip
將下載速度限制為 200KB/s,以避免對伺服器造成過度負載。
提示與注意事項
使用 wget 時,尊重網頁伺服器並有效使用非常重要。
實用提示
- **尊重 robots.txt**:大多數網站透過 `robots.txt` 檔案指定爬蟲規則。wget 預設會尊重這些規則,但您也可以使用 `--execute=robots=off` 選項來忽略它(不建議)。
- **限制下載速度**:使用 `--limit-rate` 選項限制下載速度,可以減輕伺服器的負擔。
- **離線鏡像**:`-r -np -p -k` 選項組合對於將網站鏡像為可離線瀏覽的形式非常有用。
- **防止重複下載**:使用 `-nc` (no-clobber) 選項,可以避免覆蓋已存在的檔案。
- **後台執行**:使用 `nohup wget ... &` 命令,可以在關閉終端後繼續下載。
注意事項
- **伺服器負載**:遞迴下載或大規模鏡像可能會對網頁伺服器造成相當大的負載,請注意不要未經授權濫用。
- **版權與使用條款**:請務必檢查您下載內容的版權和網站的使用條款。
- **磁碟空間**:下載大型網站可能需要大量的磁碟空間,建議事先確認。