Startseite > Netzwerkverwaltung > wget

wget -r: Rekursiver Download von Websites

wget -r ist ein leistungsstarkes Kommandozeilenwerkzeug, das zum rekursiven Herunterladen von Inhalten von Websites oder bestimmten Verzeichnissen auf Ihr lokales System verwendet wird. Es folgt Links und kopiert alle Dateien und Verzeichnisse bis zu einer angegebenen Tiefe, was es nützlich macht, um Websites offline zu durchsuchen oder zu sichern.

Übersicht

wget -r durchsucht und lädt automatisch Dateien und Verzeichnisse von Webservern bis zu einer bestimmten Tiefe herunter. Dies kann für das Spiegeln von Websites, das Offline-Browsen oder das Sammeln bestimmter Dateitypen nützlich sein.

Hauptfunktionen

  • Spiegeln ganzer Websites
  • Verfolgen von Links bis zu einer bestimmten Tiefe
  • Filtern von Dateitypen
  • Konvertieren von Links für Offline-Browsing

Wichtige Optionen

Dies sind die wichtigsten Optionen, mit denen Sie das rekursive Download-Verhalten von wget -r feinabstimmen können.

Steuerung des rekursiven Downloads

Speichern und Ausgabe

Erzeugter Befehl:

Kombinieren Sie die Befehle.

Beschreibung:

`wget` Führen Sie den Befehl aus.

Kombinieren Sie diese Optionen und führen Sie die Befehle virtuell zusammen mit der KI aus.

Anwendungsbeispiele

Dies sind praktische Beispiele für die Verwendung des wget -r-Befehls.

Grundlegender rekursiver Download

wget -r https://example.com/docs/

Lädt alle Inhalte von der angegebenen URL rekursiv herunter.

Website spiegeln (Tiefe begrenzt, Links konvertiert)

wget -r -l 2 -k -p https://example.com/

Lädt eine Website bis zu einer Tiefe von 2 Ebenen herunter und konvertiert die Links, um sie offline anzeigen zu können.

Nur bestimmte Dateitypen herunterladen

wget -r -A "*.pdf,*.doc" https://example.com/files/

Lädt rekursiv nur PDF- und DOC-Dateien aus dem angegebenen Verzeichnis herunter.

Herunterladen ohne Wechsel in übergeordnete Verzeichnisse

wget -r -np https://example.com/data/

Lädt rekursiv nur innerhalb des aktuellen Verzeichnisses herunter und wechselt nicht in übergeordnete Verzeichnisse.

Download-Verzeichnis festlegen

wget -r -P /home/user/websites https://example.com/

Speichert alle heruntergeladenen Dateien im spezifischen lokalen Verzeichnis `/home/user/websites`.

Download-Geschwindigkeit begrenzen und Wartezeit einstellen

wget -r --limit-rate=200k --wait=1 https://example.com/large-site/

Begrenzt die Download-Geschwindigkeit auf 200 KB/s und wartet 1 Sekunde zwischen jeder Anfrage, um die Serverlast zu reduzieren.

Tipps & Hinweise

Es ist wichtig, darauf zu achten, den Server nicht mit wget -r zu überlasten und nur die benötigten Dateien herunterzuladen, um die Effizienz zu steigern.

Nützliche Tipps

  • Serverlast mit `--wait` reduzieren: Kurze Intervalle zwischen vielen Anfragen können den Server belasten. Daher ist es ratsam, Optionen wie `--wait=1` (1 Sekunde warten) zu verwenden.
  • Bandbreite mit `--limit-rate` begrenzen: Sie können die Download-Geschwindigkeit begrenzen, um nicht zu viel Netzwerkbandbreite zu verbrauchen.
  • Robots Exclusion Protocol (`robots.txt`) beachten: Die meisten Websites geben Crawling-Regeln in ihrer `robots.txt`-Datei an. `wget` hält sich standardmäßig daran, kann aber mit der Option `--execute=robots=off` ignoriert werden (nicht empfohlen).
  • Verwenden Sie die Optionen `-l` (Tiefe) und `-np` (kein Wechsel in übergeordnete Verzeichnisse), um Endlosschleifen zu vermeiden: Falsche Einstellungen können zu Endlosschleifen oder dem Herunterladen unerwünscht vieler Dateien führen.
  • Verwenden Sie die Optionen `-k` (Links konvertieren) und `-p` (Seiten-Erfordernisse) zusammen für Offline-Browsing: Diese beiden Optionen sind unerlässlich, um heruntergeladene Websites lokal reibungslos zu durchsuchen.

Gleiche Kategorie Befehle