wget (téléchargement récursif) : Copier un site web entier

Aperçu

wget est un téléchargeur réseau non interactif qui télécharge des fichiers à partir de serveurs web en utilisant les protocoles HTTP, HTTPS et FTP. En particulier, sa fonction de téléchargement récursif est un outil puissant pour copier tout ou partie d'un site web localement afin de le rendre accessible hors ligne, ou pour collecter en masse certains types de fichiers.

Caractéristiques principales

Mise en miroir de sites web complets et navigation hors ligne
Conservation de la structure des répertoires jusqu'à une profondeur spécifiée
Téléchargement sélectif de types de fichiers spécifiques
Conversion automatique des liens en chemins de fichiers locaux après téléchargement
Fonction de reprise des téléchargements interrompus

Options principales

Options principales liées au téléchargement récursif.

Contrôle du téléchargement récursif

Filtrage et comportement du téléchargement

Commande générée :

Essayez de combiner les commandes.

Description:

`wget` Exécute la commande.

Essayez d'exécuter virtuellement les commandes avec l'IA en combinant les options ci-dessus.

Exemples d'utilisation

Scénarios variés utilisant la fonction de téléchargement récursif de wget.

Téléchargement récursif de base

wget -r http://example.com/docs/

Commence à l'URL spécifiée et télécharge les fichiers en suivant tous les liens de sous-niveau.

Mise en miroir complète d'un site web

wget -m -k -p http://example.com/

Met en miroir un site web localement de manière exhaustive. Convertit les liens en chemins locaux, télécharge tous les éléments nécessaires à la page et utilise les horodatages pour ne télécharger que les fichiers mis à jour.

Téléchargement jusqu'à une profondeur spécifique

wget -r -l 2 http://example.com/blog/

Limite la profondeur de récursion à 2, suivant les liens de sous-niveau jusqu'à 2 niveaux à partir de l'URL de départ.

Téléchargement de fichiers HTML et associés (pour visualisation hors ligne)

wget -r -p -k http://example.com/article.html

Télécharge une page HTML spécifique et tous les fichiers nécessaires à son affichage correct (images, CSS, JS, etc.), et convertit les liens en chemins locaux.

Téléchargement uniquement de certaines extensions

wget -r -A "*.pdf,*.doc" http://example.com/documents/

Télécharge récursivement uniquement les fichiers PDF et DOC du répertoire spécifié.

Définir le User-Agent et ignorer robots.txt

wget -r -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36" -e robots=off http://example.com/

Définit le User-Agent et ignore le fichier robots.txt pour accéder à tout le contenu. (À utiliser avec prudence)

Limiter la vitesse de téléchargement et définir le temps d'attente

wget -r --limit-rate=200k --wait=5 http://example.com/

Limite la vitesse de téléchargement à 200 Ko/s et attend 5 secondes entre chaque requête pour réduire la charge sur le serveur.

Conseils et précautions

La fonction de téléchargement récursif de wget est puissante, mais elle peut surcharger les serveurs ou télécharger des données inutiles, il faut donc l'utiliser avec prudence.

Conseils principaux

**Prévenir la surcharge du serveur** : Utilisez l'option `--wait` pour introduire un délai entre les requêtes afin de ne pas surcharger les serveurs. Vous pouvez également utiliser l'option `--random-wait` pour définir un délai aléatoire.
**Respecter `robots.txt`** : Par défaut, `wget` respecte le fichier `robots.txt`. Sauf raison particulière, il est préférable de s'abstenir d'utiliser l'option `-e robots=off`. Vérifiez la politique du site web.
**Définir le User-Agent** : Certains sites web peuvent bloquer certains User-Agents ou fournir un contenu différent. Définir un User-Agent de navigateur courant avec l'option `--user-agent` peut être utile.
**Limiter la profondeur de téléchargement** : L'option `-l` permet de limiter la profondeur de récursion, ce qui évite de télécharger des pages de niveau inférieur inutiles et de gaspiller de l'espace disque.
**Avertissement de certificat** : `--no-check-certificate` désactive la vérification de la validité des certificats SSL/TLS, ce qui présente un risque de sécurité. Il est déconseillé de l'utiliser sur des sites non fiables.
**Reprise du téléchargement** : L'option `-c` ou `--continue` permet de reprendre un téléchargement précédemment interrompu. Ceci est utile pour les fichiers volumineux ou dans des environnements réseau instables.