Aperçu
wget est un téléchargeur réseau non interactif qui télécharge des fichiers à partir de serveurs web en utilisant les protocoles HTTP, HTTPS et FTP. En particulier, sa fonction de téléchargement récursif est un outil puissant pour copier tout ou partie d'un site web localement afin de le rendre accessible hors ligne, ou pour collecter en masse certains types de fichiers.
Caractéristiques principales
- Mise en miroir de sites web complets et navigation hors ligne
- Conservation de la structure des répertoires jusqu'à une profondeur spécifiée
- Téléchargement sélectif de types de fichiers spécifiques
- Conversion automatique des liens en chemins de fichiers locaux après téléchargement
- Fonction de reprise des téléchargements interrompus
Options principales
Options principales liées au téléchargement récursif.
Contrôle du téléchargement récursif
Filtrage et comportement du téléchargement
Commande générée :
Essayez de combiner les commandes.
Description:
`wget` Exécute la commande.
Essayez d'exécuter virtuellement les commandes avec l'IA en combinant les options ci-dessus.
Exemples d'utilisation
Scénarios variés utilisant la fonction de téléchargement récursif de wget.
Téléchargement récursif de base
wget -r http://example.com/docs/
Commence à l'URL spécifiée et télécharge les fichiers en suivant tous les liens de sous-niveau.
Mise en miroir complète d'un site web
wget -m -k -p http://example.com/
Met en miroir un site web localement de manière exhaustive. Convertit les liens en chemins locaux, télécharge tous les éléments nécessaires à la page et utilise les horodatages pour ne télécharger que les fichiers mis à jour.
Téléchargement jusqu'à une profondeur spécifique
wget -r -l 2 http://example.com/blog/
Limite la profondeur de récursion à 2, suivant les liens de sous-niveau jusqu'à 2 niveaux à partir de l'URL de départ.
Téléchargement de fichiers HTML et associés (pour visualisation hors ligne)
wget -r -p -k http://example.com/article.html
Télécharge une page HTML spécifique et tous les fichiers nécessaires à son affichage correct (images, CSS, JS, etc.), et convertit les liens en chemins locaux.
Téléchargement uniquement de certaines extensions
wget -r -A "*.pdf,*.doc" http://example.com/documents/
Télécharge récursivement uniquement les fichiers PDF et DOC du répertoire spécifié.
Définir le User-Agent et ignorer robots.txt
wget -r -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36" -e robots=off http://example.com/
Définit le User-Agent et ignore le fichier robots.txt pour accéder à tout le contenu. (À utiliser avec prudence)
Limiter la vitesse de téléchargement et définir le temps d'attente
wget -r --limit-rate=200k --wait=5 http://example.com/
Limite la vitesse de téléchargement à 200 Ko/s et attend 5 secondes entre chaque requête pour réduire la charge sur le serveur.
Conseils et précautions
La fonction de téléchargement récursif de wget est puissante, mais elle peut surcharger les serveurs ou télécharger des données inutiles, il faut donc l'utiliser avec prudence.
Conseils principaux
- **Prévenir la surcharge du serveur** : Utilisez l'option `--wait` pour introduire un délai entre les requêtes afin de ne pas surcharger les serveurs. Vous pouvez également utiliser l'option `--random-wait` pour définir un délai aléatoire.
- **Respecter `robots.txt`** : Par défaut, `wget` respecte le fichier `robots.txt`. Sauf raison particulière, il est préférable de s'abstenir d'utiliser l'option `-e robots=off`. Vérifiez la politique du site web.
- **Définir le User-Agent** : Certains sites web peuvent bloquer certains User-Agents ou fournir un contenu différent. Définir un User-Agent de navigateur courant avec l'option `--user-agent` peut être utile.
- **Limiter la profondeur de téléchargement** : L'option `-l` permet de limiter la profondeur de récursion, ce qui évite de télécharger des pages de niveau inférieur inutiles et de gaspiller de l'espace disque.
- **Avertissement de certificat** : `--no-check-certificate` désactive la vérification de la validité des certificats SSL/TLS, ce qui présente un risque de sécurité. Il est déconseillé de l'utiliser sur des sites non fiables.
- **Reprise du téléchargement** : L'option `-c` ou `--continue` permet de reprendre un téléchargement précédemment interrompu. Ceci est utile pour les fichiers volumineux ou dans des environnements réseau instables.