wget -r: Rekursiver Download von Websites

Übersicht

wget -r durchsucht und lädt automatisch Dateien und Verzeichnisse von Webservern bis zu einer bestimmten Tiefe herunter. Dies kann für das Spiegeln von Websites, das Offline-Browsen oder das Sammeln bestimmter Dateitypen nützlich sein.

Hauptfunktionen

Spiegeln ganzer Websites
Verfolgen von Links bis zu einer bestimmten Tiefe
Filtern von Dateitypen
Konvertieren von Links für Offline-Browsing

Wichtige Optionen

Dies sind die wichtigsten Optionen, mit denen Sie das rekursive Download-Verhalten von wget -r feinabstimmen können.

Steuerung des rekursiven Downloads

Speichern und Ausgabe

Erzeugter Befehl:

Kombinieren Sie die Befehle.

Beschreibung:

`wget` Führen Sie den Befehl aus.

Kombinieren Sie diese Optionen und führen Sie die Befehle virtuell zusammen mit der KI aus.

Anwendungsbeispiele

Dies sind praktische Beispiele für die Verwendung des wget -r-Befehls.

Grundlegender rekursiver Download

wget -r https://example.com/docs/

Lädt alle Inhalte von der angegebenen URL rekursiv herunter.

Website spiegeln (Tiefe begrenzt, Links konvertiert)

wget -r -l 2 -k -p https://example.com/

Lädt eine Website bis zu einer Tiefe von 2 Ebenen herunter und konvertiert die Links, um sie offline anzeigen zu können.

Nur bestimmte Dateitypen herunterladen

wget -r -A "*.pdf,*.doc" https://example.com/files/

Lädt rekursiv nur PDF- und DOC-Dateien aus dem angegebenen Verzeichnis herunter.

Herunterladen ohne Wechsel in übergeordnete Verzeichnisse

wget -r -np https://example.com/data/

Lädt rekursiv nur innerhalb des aktuellen Verzeichnisses herunter und wechselt nicht in übergeordnete Verzeichnisse.

Download-Verzeichnis festlegen

wget -r -P /home/user/websites https://example.com/

Speichert alle heruntergeladenen Dateien im spezifischen lokalen Verzeichnis `/home/user/websites`.

Download-Geschwindigkeit begrenzen und Wartezeit einstellen

wget -r --limit-rate=200k --wait=1 https://example.com/large-site/

Begrenzt die Download-Geschwindigkeit auf 200 KB/s und wartet 1 Sekunde zwischen jeder Anfrage, um die Serverlast zu reduzieren.

Tipps & Hinweise

Es ist wichtig, darauf zu achten, den Server nicht mit wget -r zu überlasten und nur die benötigten Dateien herunterzuladen, um die Effizienz zu steigern.

Nützliche Tipps

Serverlast mit `--wait` reduzieren: Kurze Intervalle zwischen vielen Anfragen können den Server belasten. Daher ist es ratsam, Optionen wie `--wait=1` (1 Sekunde warten) zu verwenden.
Bandbreite mit `--limit-rate` begrenzen: Sie können die Download-Geschwindigkeit begrenzen, um nicht zu viel Netzwerkbandbreite zu verbrauchen.
Robots Exclusion Protocol (`robots.txt`) beachten: Die meisten Websites geben Crawling-Regeln in ihrer `robots.txt`-Datei an. `wget` hält sich standardmäßig daran, kann aber mit der Option `--execute=robots=off` ignoriert werden (nicht empfohlen).
Verwenden Sie die Optionen `-l` (Tiefe) und `-np` (kein Wechsel in übergeordnete Verzeichnisse), um Endlosschleifen zu vermeiden: Falsche Einstellungen können zu Endlosschleifen oder dem Herunterladen unerwünscht vieler Dateien führen.
Verwenden Sie die Optionen `-k` (Links konvertieren) und `-p` (Seiten-Erfordernisse) zusammen für Offline-Browsing: Diese beiden Optionen sind unerlässlich, um heruntergeladene Websites lokal reibungslos zu durchsuchen.