Übersicht
Die Option `-L` von wget weist es an, bei Verwendung mit rekursiven Downloads (`-r`) nur relativen Pfadlinks innerhalb der aktuellen Domain zu folgen. Dies spielt eine Schlüsselrolle dabei, den Download unnötiger Daten durch externe Links zu verhindern, wenn Sie bestimmte Unterverzeichnisse oder Strukturen einer Website spiegeln.
Hauptmerkmale
- Verfolgt nur relative Links, um die Navigation zu externen Domains zu verhindern
- Geeignet zum Spiegeln bestimmter Abschnitte einer Website
- Zeigt leistungsstarke Funktionen bei Verwendung mit rekursiven Downloads (`-r`)
- Verhindert unnötige Daten-Downloads und Bandbreitenverschwendung
Hauptoptionen
Die Option `-L` entfaltet ihr volles Potenzial, wenn sie mit anderen wget-Optionen kombiniert wird, anstatt allein verwendet zu werden.
Linkverfolgung und Download
Erzeugter Befehl:
Kombinieren Sie die Befehle.
Beschreibung:
`wget` Führen Sie den Befehl aus.
Kombinieren Sie diese Optionen und führen Sie die Befehle virtuell zusammen mit der KI aus.
Anwendungsbeispiele
Verschiedene Anwendungsbeispiele für wget unter Verwendung der Option `-L`.
Rekursiver Download nur relativer Links
wget -r -L -np http://example.com/docs/
Lädt die Website rekursiv herunter, indem nur relativen Links von der angegebenen URL gefolgt wird. Navigiert nicht zu übergeordneten Verzeichnissen.
Links nach dem Download für die lokale Nutzung konvertieren
wget -r -L -np -k http://example.com/docs/
Lädt wie im obigen Beispiel herunter, konvertiert aber die Links in den heruntergeladenen HTML-Dateien, damit sie lokal funktionieren.
In einem bestimmten Verzeichnis speichern
wget -r -L -np -k -P my_docs http://example.com/docs/
Speichert alle heruntergeladenen Dateien im Verzeichnis 'my_docs'.
Download-Tiefe begrenzen
wget -r -L -np -l 2 http://example.com/docs/
Folgt bei rekursiven Downloads nur Links bis zu einer Tiefe von 2 Ebenen von der Start-URL.
Tipps & Hinweise
Nützliche Tipps und zu beachtende Punkte bei der Verwendung von wget -L.
Tipps für eine effiziente Nutzung
- **Verwendung der Option `--level`**: Mit der Option `-l` können Sie die Tiefe des rekursiven Downloads begrenzen, um unnötige Dateidownloads zu verhindern und Endlosschleifen zu vermeiden.
- **`--wait` und `--random-wait`**: Es ist ratsam, Wartezeiten zwischen den Anfragen einzufügen, um den Server nicht zu überlasten. Dies ist besonders nützlich bei großen Spiegelungen.
- **`--limit-rate`**: Sie können die Download-Geschwindigkeit begrenzen, um die Netzwerkauslastung effizient zu verwalten.
- **`--no-clobber`**: Verhindert das Überschreiben vorhandener Dateien, was nützlich ist, um unterbrochene Downloads fortzusetzen oder versehentliche Dateibeschädigung zu vermeiden.
Hinweise
- **Serverlast**: Übermäßige rekursive Downloads können den Zielserver belasten. Es ist ratsam, die Abstände zwischen den Anfragen mit der Option `--wait` anzupassen.
- **robots.txt beachten**: Die meisten Websites geben Crawling-Regeln in ihrer `robots.txt`-Datei an. Sie können diese mit der Option `--execute robots=off` ignorieren, dies kann jedoch gegen die Richtlinien der Website verstoßen und sollte daher mit Vorsicht verwendet werden.
- **Möglichkeit von Endlosschleifen**: Falsche Optionskombinationen können Endlosschleifen verursachen und Systemressourcen verbrauchen. Insbesondere bei der Verwendung von `-L` und `-r` ist es wichtig, den Bereich mit Optionen wie `-np` oder `-l` klar zu begrenzen.