Startseite > Netzwerkverwaltung > wget

wget: Herunterladen von Webseiten und Dateien

wget ist ein leistungsstarkes Kommandozeilenwerkzeug zum nicht-interaktiven Herunterladen von Dateien und Webseiten von Webservern unter Verwendung der Protokolle HTTP, HTTPS und FTP. Insbesondere die Option `-p` (page-requisites) ist nützlich, um alle relevanten Dateien (Bilder, CSS, JavaScript usw.) herunterzuladen, die zum korrekten Anzeigen einer HTML-Seite erforderlich sind, sodass die Seite offline angezeigt werden kann.

Übersicht

wget eignet sich für eine stabile Dateiübertragung, da es im Hintergrund ausgeführt werden kann und Downloads fortsetzen kann, auch wenn die Netzwerkverbindung unterbrochen wird. Die Option `-p` ist nützlich, um eine einzelne HTML-Seite für die vollständige Offline-Navigation vorzubereiten.

Hauptmerkmale

  • Unterstützung für HTTP-, HTTPS- und FTP-Protokolle
  • Nicht-interaktiver Download (kann im Hintergrund ausgeführt werden)
  • Unterstützung für Download-Fortsetzung
  • Rekursive Download- und Website-Mirroring-Funktionen
  • Gleichzeitiger Download von Seiten-Anforderungsdateien (Option -p)

Wichtige Optionen

wget bietet verschiedene Optionen zur detaillierten Steuerung des Download-Verhaltens.

Download-Steuerung

Erzeugter Befehl:

Kombinieren Sie die Befehle.

Beschreibung:

`wget` Führen Sie den Befehl aus.

Kombinieren Sie diese Optionen und führen Sie die Befehle virtuell zusammen mit der KI aus.

Anwendungsbeispiele

Mit den verschiedenen Anwendungsmöglichkeiten von wget können Sie Webinhalte effizient herunterladen.

Herunterladen einer einzelnen Webseite und ihrer erforderlichen Dateien

wget -p https://example.com/mypage.html

Lädt die angegebene HTML-Seite und alle für die korrekte Anzeige erforderlichen Bilder, CSS-, JavaScript-Dateien usw. herunter.

Konvertierung von Links für die Offline-Anzeige

wget -p -k https://example.com/mypage.html

Lädt die Seiten-Anforderungsdateien herunter und konvertiert die Links im heruntergeladenen HTML-Dokument in lokale Dateipfade, um die Offline-Navigation zu ermöglichen.

Spiegelung einer gesamten Webseite (einschließlich Seiten-Anforderungsdateien)

wget -r -np -p -k https://example.com/

Lädt eine Webseite rekursiv herunter, ohne in übergeordnete Verzeichnisse zu wechseln, schließt alle Seiten-Anforderungsdateien ein und konvertiert Links in lokale Pfade.

Herunterladen einer bestimmten Datei und Umbenennen

wget -O neuer_name.zip https://example.com/archiv.zip

Lädt eine Remote-Datei herunter und speichert sie lokal unter dem angegebenen Namen.

Begrenzung der Download-Geschwindigkeit

wget --limit-rate=200k https://example.com/grosse_datei.zip

Begrenzt die Download-Geschwindigkeit auf 200 KB/s, um den Server nicht übermäßig zu belasten.

Tipps & Hinweise

Bei der Verwendung von wget ist es wichtig, Rücksicht auf den Webserver zu nehmen und ihn effizient zu nutzen.

Nützliche Tipps

  • **robots.txt beachten**: Die meisten Webseiten geben Crawling-Regeln in der Datei `robots.txt` an. wget respektiert dies standardmäßig, kann es aber mit der Option `--execute=robots=off` ignorieren (nicht empfohlen).
  • **Download-Geschwindigkeit begrenzen**: Mit der Option `--limit-rate` können Sie die Download-Geschwindigkeit begrenzen, um den Server zu entlasten.
  • **Offline-Mirroring**: Die Kombination der Optionen `-r -np -p -k` ist sehr nützlich, um eine Webseite für die Offline-Navigation zu spiegeln.
  • **Vermeidung von doppelten Downloads**: Mit der Option `-nc` (no-clobber) werden bereits vorhandene Dateien übersprungen, anstatt sie zu überschreiben.
  • **Hintergrundausführung**: Mit dem Befehl `nohup wget ... &` können Sie Downloads fortsetzen lassen, auch nachdem das Terminal geschlossen wurde.

Hinweise

  • **Serverlast**: Rekursive Downloads oder groß angelegte Spiegelungen können eine erhebliche Belastung für den Webserver darstellen. Vermeiden Sie Missbrauch ohne Erlaubnis.
  • **Urheberrecht und Nutzungsbedingungen**: Überprüfen Sie immer das Urheberrecht der heruntergeladenen Inhalte und die Nutzungsbedingungen der Webseite.
  • **Festplattenspeicher**: Das Herunterladen großer Webseiten kann viel Festplattenspeicher beanspruchen. Stellen Sie sicher, dass ausreichend Speicherplatz vorhanden ist.

Gleiche Kategorie Befehle