Übersicht
wget ist ein nicht-interaktiver Netzwerk-Downloader, der HTTP-, HTTPS- und FTP-Protokolle verwendet, um Dateien von Webservern herunterzuladen. Insbesondere seine rekursive Download-Funktion ist ein leistungsstarkes Werkzeug, um ganze oder Teile von Websites lokal zu kopieren, um sie offline zugänglich zu machen, oder um große Mengen bestimmter Dateitypen zu sammeln.
Hauptmerkmale
- Komplettes Website-Mirroring und Offline-Browsing
- Beibehaltung der Verzeichnisstruktur bis zu einer angegebenen Tiefe
- Selektiver Download nur bestimmter Dateiformate
- Automatische Konvertierung von Links in lokale Dateipfade nach dem Download
- Funktion zum Fortsetzen unterbrochener Downloads
Wichtige Optionen
Dies sind die wichtigsten Optionen im Zusammenhang mit rekursiven Downloads.
Steuerung des rekursiven Downloads
Download-Filterung und Verhalten
Erzeugter Befehl:
Kombinieren Sie die Befehle.
Beschreibung:
`wget` Führen Sie den Befehl aus.
Kombinieren Sie diese Optionen und führen Sie die Befehle virtuell zusammen mit der KI aus.
Anwendungsbeispiele
Verschiedene Szenarien, die die rekursive Download-Funktion von wget nutzen.
Grundlegender rekursiver Download
wget -r http://example.com/docs/
Beginnt bei der angegebenen URL und lädt Dateien herunter, indem allen nachfolgenden Links gefolgt wird.
Komplettes Website-Mirroring
wget -m -k -p http://example.com/
Spiegelt eine Website perfekt lokal. Konvertiert Links in lokale Pfade, lädt alle für die Seite benötigten Elemente herunter und verwendet Zeitstempel, um nur aktualisierte Dateien herunterzuladen.
Download bis zu einer bestimmten Tiefe
wget -r -l 2 http://example.com/blog/
Begrenzt die rekursive Tiefe auf 2, sodass nur bis zur 2. Ebene von der Start-URL aus Links gefolgt wird.
HTML und zugehörige Dateien herunterladen (für Offline-Anzeige)
wget -r -p -k http://example.com/article.html
Lädt eine bestimmte HTML-Seite und alle für die korrekte Anzeige der Seite benötigten Dateien (Bilder, CSS, JS usw.) herunter und konvertiert Links in lokale Pfade.
Nur bestimmte Erweiterungen herunterladen
wget -r -A "*.pdf,*.doc" http://example.com/documents/
Lädt rekursiv nur PDF- und DOC-Dateien aus dem angegebenen Verzeichnis herunter.
User-Agent festlegen und robots.txt ignorieren
wget -r -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36" -e robots=off http://example.com/
Legt den User-Agent fest und ignoriert die robots.txt-Datei, um auf alle Inhalte zuzugreifen. (Mit Vorsicht verwenden)
Download-Geschwindigkeit begrenzen und Wartezeit einstellen
wget -r --limit-rate=200k --wait=5 http://example.com/
Begrenzt die Download-Geschwindigkeit auf 200 KB/s und wartet 5 Sekunden zwischen jeder Anfrage, um den Server zu entlasten.
Tipps & Hinweise
Die rekursive Download-Funktion von wget ist leistungsstark, kann aber den Server überlasten oder unnötige Daten herunterladen. Verwenden Sie sie daher mit Vorsicht.
Wichtige Tipps
- **Serverlast vermeiden**: Verwenden Sie die Option `--wait`, um Wartezeiten zwischen Anfragen einzufügen und den Server nicht zu überlasten. Sie können auch `--random-wait` verwenden, um zufällige Wartezeiten einzustellen.
- **`robots.txt` respektieren**: Standardmäßig respektiert `wget` die `robots.txt`-Datei. Wenn kein besonderer Grund vorliegt, sollten Sie die Verwendung der Option `-e robots=off` vermeiden. Überprüfen Sie die Richtlinien der Website.
- **User-Agent festlegen**: Einige Websites blockieren bestimmte User-Agents oder bieten unterschiedliche Inhalte an. Das Festlegen eines gängigen Browser-User-Agents mit der Option `--user-agent` kann hilfreich sein.
- **Download-Tiefe begrenzen**: Mit der Option `-l` können Sie die rekursive Tiefe begrenzen, um zu verhindern, dass unnötige Unterseiten heruntergeladen werden, und um Speicherplatzverschwendung zu vermeiden.
- **Zertifikatswarnung**: `--no-check-certificate` deaktiviert die Überprüfung der Gültigkeit von SSL/TLS-Zertifikaten und birgt Sicherheitsrisiken. Verwenden Sie es nicht auf nicht vertrauenswürdigen Websites.
- **Download fortsetzen**: Mit der Option `-c` oder `--continue` können Sie einen zuvor unterbrochenen Download fortsetzen. Dies ist nützlich für große Dateien oder in instabilen Netzwerkumgebungen.