Aperçu
wget -r explore et télécharge automatiquement les fichiers et répertoires d'un serveur web jusqu'à une profondeur spécifiée. Il peut être utilisé pour la mise en miroir de sites web, la navigation hors ligne, la collecte de types de fichiers spécifiques, etc.
Fonctionnalités principales
- Mise en miroir complète de sites web
- Suivi des liens jusqu'à une profondeur spécifiée
- Filtrage des types de fichiers
- Conversion des liens pour la navigation hors ligne
Options principales
Voici les options principales qui vous permettent de contrôler finement le comportement de téléchargement récursif lors de l'utilisation de wget -r.
Contrôle du téléchargement récursif
Stockage et sortie
Commande générée :
Essayez de combiner les commandes.
Description:
`wget` Exécute la commande.
Essayez d'exécuter virtuellement les commandes avec l'IA en combinant les options ci-dessus.
Exemples d'utilisation
Voici des exemples d'utilisation réels de la commande wget -r.
Téléchargement récursif de base
wget -r https://example.com/docs/
Télécharge récursivement tout le contenu d'une URL spécifiée.
Mise en miroir d'un site web (profondeur limitée, conversion des liens)
wget -r -l 2 -k -p https://example.com/
Télécharge un site web jusqu'à une profondeur de 2 niveaux et convertit les liens en chemins locaux pour une visualisation hors ligne.
Télécharger uniquement des types de fichiers spécifiques
wget -r -A "*.pdf,*.doc" https://example.com/files/
Télécharge récursivement uniquement les fichiers PDF et DOC d'un répertoire spécifié.
Télécharger sans remonter aux répertoires parents
wget -r -np https://example.com/data/
Télécharge récursivement uniquement dans le répertoire courant, sans remonter aux répertoires parents.
Spécifier le répertoire de téléchargement
wget -r -P /home/user/websites https://example.com/
Enregistre tous les fichiers téléchargés dans un répertoire local spécifique (`/home/user/websites`).
Limiter le débit de téléchargement et définir un temps d'attente
wget -r --limit-rate=200k --wait=1 https://example.com/large-site/
Limite la vitesse de téléchargement à 200 Ko/s et attend 1 seconde entre chaque requête pour réduire la charge du serveur.
Conseils et précautions
Il est important de faire attention à ne pas surcharger le serveur lors de l'utilisation de wget -r et de télécharger uniquement les fichiers nécessaires pour améliorer l'efficacité.
Conseils utiles
- Réduire la charge du serveur avec l'option `--wait` : envoyer de nombreuses requêtes à intervalles courts peut surcharger le serveur, il est donc conseillé d'utiliser des options comme `--wait=1` (attendre 1 seconde).
- Limiter la bande passante avec `--limit-rate` : vous pouvez limiter la vitesse de téléchargement pour ne pas utiliser excessivement la bande passante du réseau.
- Respecter le protocole d'exclusion des robots (`robots.txt`) : la plupart des sites web spécifient leurs règles de crawl via un fichier `robots.txt`. `wget` le respecte par défaut, mais vous pouvez l'ignorer avec l'option `--execute=robots=off` (non recommandé).
- Utiliser les options `-l` (profondeur) et `-np` (ne pas remonter aux parents) pour éviter les boucles infinies : une mauvaise configuration peut entraîner une boucle infinie ou le téléchargement d'une quantité excessive de fichiers indésirables.
- Utiliser les options `-k` (conversion des liens) et `-p` (prérequis de la page) ensemble pour la navigation hors ligne : ces deux options sont essentielles pour naviguer de manière fluide sur un site web téléchargé localement.