Aperçu
L'option `-L` de wget, lorsqu'elle est utilisée avec le téléchargement récursif (`-r`), indique de ne suivre que les liens de chemin relatif au sein du domaine actuel. Ceci joue un rôle crucial pour éviter de télécharger des données inutiles dues à des liens externes lors de la mise en miroir d'un sous-répertoire ou d'une structure spécifique d'un site web.
Caractéristiques principales
- Suivi uniquement des liens relatifs pour empêcher la navigation vers des domaines externes
- Adapté à la mise en miroir de sections spécifiques d'un site web
- Fonctionnalité puissante lorsqu'elle est utilisée avec le téléchargement récursif (`-r`)
- Prévention du téléchargement de données inutiles et du gaspillage de bande passante
Options principales
L'option `-L` prend tout son sens lorsqu'elle est combinée avec d'autres options de `wget`, plutôt que d'être utilisée seule.
Suivi et téléchargement des liens
Commande générée :
Essayez de combiner les commandes.
Description:
`wget` Exécute la commande.
Essayez d'exécuter virtuellement les commandes avec l'IA en combinant les options ci-dessus.
Exemples d'utilisation
Divers exemples d'utilisation de `wget` avec l'option `-L`.
Télécharger récursivement en suivant uniquement les liens relatifs
wget -r -L -np http://example.com/docs/
À partir de l'URL spécifiée, télécharge récursivement le site web en suivant uniquement les liens relatifs. Ne remonte pas au répertoire parent.
Convertir les liens pour le local après le téléchargement
wget -r -L -np -k http://example.com/docs/
Télécharge comme dans l'exemple précédent, mais convertit les liens dans les fichiers HTML téléchargés pour qu'ils fonctionnent localement.
Sauvegarder dans un répertoire spécifique
wget -r -L -np -k -P my_docs http://example.com/docs/
Sauvegarde tous les fichiers téléchargés dans un répertoire nommé 'my_docs'.
Limiter la profondeur de téléchargement
wget -r -L -np -l 2 http://example.com/docs/
Lors du téléchargement récursif, ne suit les liens que jusqu'à 2 niveaux de profondeur à partir de l'URL de départ.
Conseils et précautions
Conseils utiles et points à considérer lors de l'utilisation de `wget -L`.
Conseils pour une utilisation efficace
- **Utiliser l'option `--level`**: L'option `-l` permet de limiter la profondeur du téléchargement récursif, ce qui évite le téléchargement de fichiers inutiles et prévient les boucles infinies.
- **`--wait` et `--random-wait`**: Il est recommandé d'introduire un délai entre les requêtes pour ne pas surcharger le serveur. Ceci est particulièrement utile pour la mise en miroir à grande échelle.
- **`--limit-rate`**: Permet de limiter la vitesse de téléchargement pour une gestion efficace de la bande passante réseau.
- **`--no-clobber`**: Empêche l'écrasement des fichiers existants, ce qui permet de reprendre les téléchargements interrompus ou d'éviter d'endommager accidentellement des fichiers.
Précautions
- **Charge serveur**: Un téléchargement récursif excessif peut surcharger le serveur cible. Il est conseillé d'utiliser l'option `--wait` pour ajuster l'intervalle des requêtes.
- **Respecter robots.txt**: La plupart des sites web spécifient leurs règles de crawl via le fichier `robots.txt`. Bien que l'option `--execute robots=off` puisse être utilisée pour l'ignorer, cela peut constituer une violation des politiques du site web et doit donc être utilisé avec prudence.
- **Possibilité de boucles infinies**: Une combinaison incorrecte d'options peut entraîner des boucles infinies, consommant ainsi les ressources système. Il est particulièrement important de limiter clairement la portée avec des options comme `-np` ou `-l` lors de l'utilisation de `-L` et `-r`.