Übersicht
wget -r durchsucht und lädt automatisch Dateien und Verzeichnisse von Webservern bis zu einer bestimmten Tiefe herunter. Dies kann für das Spiegeln von Websites, das Offline-Browsen oder das Sammeln bestimmter Dateitypen nützlich sein.
Hauptfunktionen
- Spiegeln ganzer Websites
- Verfolgen von Links bis zu einer bestimmten Tiefe
- Filtern von Dateitypen
- Konvertieren von Links für Offline-Browsing
Wichtige Optionen
Dies sind die wichtigsten Optionen, mit denen Sie das rekursive Download-Verhalten von wget -r feinabstimmen können.
Steuerung des rekursiven Downloads
Speichern und Ausgabe
Erzeugter Befehl:
Kombinieren Sie die Befehle.
Beschreibung:
`wget` Führen Sie den Befehl aus.
Kombinieren Sie diese Optionen und führen Sie die Befehle virtuell zusammen mit der KI aus.
Anwendungsbeispiele
Dies sind praktische Beispiele für die Verwendung des wget -r-Befehls.
Grundlegender rekursiver Download
wget -r https://example.com/docs/
Lädt alle Inhalte von der angegebenen URL rekursiv herunter.
Website spiegeln (Tiefe begrenzt, Links konvertiert)
wget -r -l 2 -k -p https://example.com/
Lädt eine Website bis zu einer Tiefe von 2 Ebenen herunter und konvertiert die Links, um sie offline anzeigen zu können.
Nur bestimmte Dateitypen herunterladen
wget -r -A "*.pdf,*.doc" https://example.com/files/
Lädt rekursiv nur PDF- und DOC-Dateien aus dem angegebenen Verzeichnis herunter.
Herunterladen ohne Wechsel in übergeordnete Verzeichnisse
wget -r -np https://example.com/data/
Lädt rekursiv nur innerhalb des aktuellen Verzeichnisses herunter und wechselt nicht in übergeordnete Verzeichnisse.
Download-Verzeichnis festlegen
wget -r -P /home/user/websites https://example.com/
Speichert alle heruntergeladenen Dateien im spezifischen lokalen Verzeichnis `/home/user/websites`.
Download-Geschwindigkeit begrenzen und Wartezeit einstellen
wget -r --limit-rate=200k --wait=1 https://example.com/large-site/
Begrenzt die Download-Geschwindigkeit auf 200 KB/s und wartet 1 Sekunde zwischen jeder Anfrage, um die Serverlast zu reduzieren.
Tipps & Hinweise
Es ist wichtig, darauf zu achten, den Server nicht mit wget -r zu überlasten und nur die benötigten Dateien herunterzuladen, um die Effizienz zu steigern.
Nützliche Tipps
- Serverlast mit `--wait` reduzieren: Kurze Intervalle zwischen vielen Anfragen können den Server belasten. Daher ist es ratsam, Optionen wie `--wait=1` (1 Sekunde warten) zu verwenden.
- Bandbreite mit `--limit-rate` begrenzen: Sie können die Download-Geschwindigkeit begrenzen, um nicht zu viel Netzwerkbandbreite zu verbrauchen.
- Robots Exclusion Protocol (`robots.txt`) beachten: Die meisten Websites geben Crawling-Regeln in ihrer `robots.txt`-Datei an. `wget` hält sich standardmäßig daran, kann aber mit der Option `--execute=robots=off` ignoriert werden (nicht empfohlen).
- Verwenden Sie die Optionen `-l` (Tiefe) und `-np` (kein Wechsel in übergeordnete Verzeichnisse), um Endlosschleifen zu vermeiden: Falsche Einstellungen können zu Endlosschleifen oder dem Herunterladen unerwünscht vieler Dateien führen.
- Verwenden Sie die Optionen `-k` (Links konvertieren) und `-p` (Seiten-Erfordernisse) zusammen für Offline-Browsing: Diese beiden Optionen sind unerlässlich, um heruntergeladene Websites lokal reibungslos zu durchsuchen.