accueil > Gestion réseau > wget

wget -L : Télécharger récursivement uniquement les liens relatifs

wget est un outil puissant en ligne de commande utilisé pour télécharger des fichiers à partir de serveurs web de manière non interactive. L'option `-L` ou `--relative` spécifie que lors d'un téléchargement récursif, seuls les liens relatifs de l'URL spécifiée doivent être suivis. Ceci est utile pour télécharger en conservant la structure des liens internes ou une section spécifique d'un site web, car cela empêche la navigation vers des domaines externes, permettant ainsi de collecter efficacement uniquement le contenu souhaité.

Aperçu

L'option `-L` de wget, lorsqu'elle est utilisée avec le téléchargement récursif (`-r`), indique de ne suivre que les liens de chemin relatif au sein du domaine actuel. Ceci joue un rôle crucial pour éviter de télécharger des données inutiles dues à des liens externes lors de la mise en miroir d'un sous-répertoire ou d'une structure spécifique d'un site web.

Caractéristiques principales

  • Suivi uniquement des liens relatifs pour empêcher la navigation vers des domaines externes
  • Adapté à la mise en miroir de sections spécifiques d'un site web
  • Fonctionnalité puissante lorsqu'elle est utilisée avec le téléchargement récursif (`-r`)
  • Prévention du téléchargement de données inutiles et du gaspillage de bande passante

Options principales

L'option `-L` prend tout son sens lorsqu'elle est combinée avec d'autres options de `wget`, plutôt que d'être utilisée seule.

Suivi et téléchargement des liens

Commande générée :

Essayez de combiner les commandes.

Description:

`wget` Exécute la commande.

Essayez d'exécuter virtuellement les commandes avec l'IA en combinant les options ci-dessus.

Exemples d'utilisation

Divers exemples d'utilisation de `wget` avec l'option `-L`.

Télécharger récursivement en suivant uniquement les liens relatifs

wget -r -L -np http://example.com/docs/

À partir de l'URL spécifiée, télécharge récursivement le site web en suivant uniquement les liens relatifs. Ne remonte pas au répertoire parent.

Convertir les liens pour le local après le téléchargement

wget -r -L -np -k http://example.com/docs/

Télécharge comme dans l'exemple précédent, mais convertit les liens dans les fichiers HTML téléchargés pour qu'ils fonctionnent localement.

Sauvegarder dans un répertoire spécifique

wget -r -L -np -k -P my_docs http://example.com/docs/

Sauvegarde tous les fichiers téléchargés dans un répertoire nommé 'my_docs'.

Limiter la profondeur de téléchargement

wget -r -L -np -l 2 http://example.com/docs/

Lors du téléchargement récursif, ne suit les liens que jusqu'à 2 niveaux de profondeur à partir de l'URL de départ.

Conseils et précautions

Conseils utiles et points à considérer lors de l'utilisation de `wget -L`.

Conseils pour une utilisation efficace

  • **Utiliser l'option `--level`**: L'option `-l` permet de limiter la profondeur du téléchargement récursif, ce qui évite le téléchargement de fichiers inutiles et prévient les boucles infinies.
  • **`--wait` et `--random-wait`**: Il est recommandé d'introduire un délai entre les requêtes pour ne pas surcharger le serveur. Ceci est particulièrement utile pour la mise en miroir à grande échelle.
  • **`--limit-rate`**: Permet de limiter la vitesse de téléchargement pour une gestion efficace de la bande passante réseau.
  • **`--no-clobber`**: Empêche l'écrasement des fichiers existants, ce qui permet de reprendre les téléchargements interrompus ou d'éviter d'endommager accidentellement des fichiers.

Précautions

  • **Charge serveur**: Un téléchargement récursif excessif peut surcharger le serveur cible. Il est conseillé d'utiliser l'option `--wait` pour ajuster l'intervalle des requêtes.
  • **Respecter robots.txt**: La plupart des sites web spécifient leurs règles de crawl via le fichier `robots.txt`. Bien que l'option `--execute robots=off` puisse être utilisée pour l'ignorer, cela peut constituer une violation des politiques du site web et doit donc être utilisé avec prudence.
  • **Possibilité de boucles infinies**: Une combinaison incorrecte d'options peut entraîner des boucles infinies, consommant ainsi les ressources système. Il est particulièrement important de limiter clairement la portée avec des options comme `-np` ou `-l` lors de l'utilisation de `-L` et `-r`.

Commandes de la même catégorie