概述
wget 的 `-L` 選項與遞歸下載 (`-r`) 選項一起使用時,指示 wget 僅跟蹤當前域內的相對路徑鏈接。這在鏡像網站的特定子目錄或結構時,對於防止因外部鏈接而下載不必要數據至關重要。
主要特點
- 僅跟蹤相對鏈接,防止導向到外部域
- 適用於鏡像網站的特定部分
- 與遞歸下載 (`-r`) 選項結合使用時功能強大
- 防止下載不必要數據和浪費帶寬
主要選項
`-L` 選項通常與其他 `wget` 選項結合使用時才能發揮其最大價值。
鏈接跟蹤和下載
生成的命令:
請試著組合命令。
這個 Django 應用程序是一個技術指南文檔,旨在為用戶輕鬆解釋 Linux 的各種命令。
`wget` 執行命令。
請將上述選項組合在一起,與 AI 一同虛擬執行命令。
使用範例
使用 `-L` 選項的 `wget` 的各種使用範例。
僅跟蹤相對鏈接進行遞歸下載
wget -r -L -np http://example.com/docs/
從指定 URL 開始,僅跟蹤相對鏈接遞歸下載網站。不導向到父目錄。
下載後將鏈接轉換為本地格式
wget -r -L -np -k http://example.com/docs/
與上述範例相同進行下載,但將下載的 HTML 文件中的鏈接轉換為可在本地工作的格式。
保存到指定目錄
wget -r -L -np -k -P my_docs http://example.com/docs/
將所有下載的文件保存在名為 'my_docs' 的目錄下。
限制下載深度
wget -r -L -np -l 2 http://example.com/docs/
在遞歸下載時,僅跟蹤從起始 URL 開始的 2 層深度鏈接。
提示與注意事項
使用 wget -L 時的實用提示和注意事項。
高效使用的提示
- **利用 `--level` 選項**: 使用 `-l` 選項限制遞歸下載的深度,可以防止下載不必要的文件並避免無限循環。
- **`--wait` 和 `--random-wait`**: 建議在請求之間設置延遲時間,以避免對服務器造成過載。這對於大規模鏡像特別有用。
- **`--limit-rate`**: 可以限制下載速度,從而有效管理網絡帶寬。
- **`--no-clobber`**: 防止覆蓋已存在的文件,這有助於恢復中斷的下載或避免意外損壞文件。
注意事項
- **服務器負載**: 過度的遞歸下載可能會對目標服務器造成負載。建議使用 `--wait` 選項調整請求間隔。
- **遵守 robots.txt**: 大多數網站通過 `robots.txt` 文件聲明爬取規則。雖然可以使用 `--execute robots=off` 選項忽略它,但這可能違反網站政策,因此應謹慎使用。
- **無限循環的可能性**: 錯誤的選項組合可能導致無限循環並消耗系統資源。特別是當使用 `-L` 和 `-r` 時,使用 `-np` 或 `-l` 選項明確限制範圍非常重要。