Startseite > Netzwerkverwaltung > wget

wget -L: Nur relative Links rekursiv herunterladen

wget ist ein leistungsstarkes Befehlszeilenwerkzeug zum nicht-interaktiven Herunterladen von Dateien von Webservern. Die Option `-L` oder `--relative` weist wget an, bei rekursiven Downloads nur relativen Links der angegebenen URL zu folgen. Dies ist nützlich, wenn Sie bestimmte Abschnitte einer Website oder die interne Linkstruktur beibehalten möchten, da es unnötige Erkundungen zu externen Domains verhindert und es Ihnen ermöglicht, nur die gewünschten Inhalte effizient zu sammeln.

Übersicht

Die Option `-L` von wget weist es an, bei Verwendung mit rekursiven Downloads (`-r`) nur relativen Pfadlinks innerhalb der aktuellen Domain zu folgen. Dies spielt eine Schlüsselrolle dabei, den Download unnötiger Daten durch externe Links zu verhindern, wenn Sie bestimmte Unterverzeichnisse oder Strukturen einer Website spiegeln.

Hauptmerkmale

  • Verfolgt nur relative Links, um die Navigation zu externen Domains zu verhindern
  • Geeignet zum Spiegeln bestimmter Abschnitte einer Website
  • Zeigt leistungsstarke Funktionen bei Verwendung mit rekursiven Downloads (`-r`)
  • Verhindert unnötige Daten-Downloads und Bandbreitenverschwendung

Hauptoptionen

Die Option `-L` entfaltet ihr volles Potenzial, wenn sie mit anderen wget-Optionen kombiniert wird, anstatt allein verwendet zu werden.

Linkverfolgung und Download

Erzeugter Befehl:

Kombinieren Sie die Befehle.

Beschreibung:

`wget` Führen Sie den Befehl aus.

Kombinieren Sie diese Optionen und führen Sie die Befehle virtuell zusammen mit der KI aus.

Anwendungsbeispiele

Verschiedene Anwendungsbeispiele für wget unter Verwendung der Option `-L`.

Rekursiver Download nur relativer Links

wget -r -L -np http://example.com/docs/

Lädt die Website rekursiv herunter, indem nur relativen Links von der angegebenen URL gefolgt wird. Navigiert nicht zu übergeordneten Verzeichnissen.

Links nach dem Download für die lokale Nutzung konvertieren

wget -r -L -np -k http://example.com/docs/

Lädt wie im obigen Beispiel herunter, konvertiert aber die Links in den heruntergeladenen HTML-Dateien, damit sie lokal funktionieren.

In einem bestimmten Verzeichnis speichern

wget -r -L -np -k -P my_docs http://example.com/docs/

Speichert alle heruntergeladenen Dateien im Verzeichnis 'my_docs'.

Download-Tiefe begrenzen

wget -r -L -np -l 2 http://example.com/docs/

Folgt bei rekursiven Downloads nur Links bis zu einer Tiefe von 2 Ebenen von der Start-URL.

Tipps & Hinweise

Nützliche Tipps und zu beachtende Punkte bei der Verwendung von wget -L.

Tipps für eine effiziente Nutzung

  • **Verwendung der Option `--level`**: Mit der Option `-l` können Sie die Tiefe des rekursiven Downloads begrenzen, um unnötige Dateidownloads zu verhindern und Endlosschleifen zu vermeiden.
  • **`--wait` und `--random-wait`**: Es ist ratsam, Wartezeiten zwischen den Anfragen einzufügen, um den Server nicht zu überlasten. Dies ist besonders nützlich bei großen Spiegelungen.
  • **`--limit-rate`**: Sie können die Download-Geschwindigkeit begrenzen, um die Netzwerkauslastung effizient zu verwalten.
  • **`--no-clobber`**: Verhindert das Überschreiben vorhandener Dateien, was nützlich ist, um unterbrochene Downloads fortzusetzen oder versehentliche Dateibeschädigung zu vermeiden.

Hinweise

  • **Serverlast**: Übermäßige rekursive Downloads können den Zielserver belasten. Es ist ratsam, die Abstände zwischen den Anfragen mit der Option `--wait` anzupassen.
  • **robots.txt beachten**: Die meisten Websites geben Crawling-Regeln in ihrer `robots.txt`-Datei an. Sie können diese mit der Option `--execute robots=off` ignorieren, dies kann jedoch gegen die Richtlinien der Website verstoßen und sollte daher mit Vorsicht verwendet werden.
  • **Möglichkeit von Endlosschleifen**: Falsche Optionskombinationen können Endlosschleifen verursachen und Systemressourcen verbrauchen. Insbesondere bei der Verwendung von `-L` und `-r` ist es wichtig, den Bereich mit Optionen wie `-np` oder `-l` klar zu begrenzen.

Gleiche Kategorie Befehle