Descripción general
wget -r explora y descarga automáticamente archivos y directorios de un servidor web hasta una profundidad especificada. Esto puede ser útil para espejar sitios web, navegar sin conexión o recopilar tipos específicos de archivos.
Funciones principales
- Espejado completo de sitios web
- Seguimiento de enlaces hasta una profundidad especificada
- Filtrado de tipos de archivo
- Conversión de enlaces para navegación sin conexión
Opciones principales
Estas son las opciones principales que le permiten controlar finamente el comportamiento de descarga recursiva al usar wget -r.
Control de descarga recursiva
Guardado y salida
Comando generado:
Combina los comandos.
Descripción:
`wget` Ejecutando el comando.
Combina las opciones anteriores para ejecutar virtualmente los comandos junto con la IA.
Ejemplos de uso
Estos son ejemplos prácticos de cómo usar el comando wget -r.
Descarga recursiva básica
wget -r https://example.com/docs/
Descarga recursivamente todo el contenido de una URL especificada.
Espejado de sitio web (profundidad limitada, conversión de enlaces)
wget -r -l 2 -k -p https://example.com/
Descarga un sitio web hasta una profundidad de 2 niveles y convierte los enlaces para que se puedan ver sin conexión.
Descargar solo tipos de archivo específicos
wget -r -A "*.pdf,*.doc" https://example.com/files/
Descarga recursivamente solo archivos PDF y DOC del directorio especificado.
Descargar sin subir al directorio padre
wget -r -np https://example.com/data/
Descarga recursivamente solo dentro del directorio actual y no sube al directorio padre.
Especificar directorio de descarga
wget -r -P /home/user/websites https://example.com/
Guarda todos los archivos descargados en un directorio local específico (/home/user/websites).
Limitar velocidad de descarga y establecer tiempo de espera
wget -r --limit-rate=200k --wait=1 https://example.com/large-site/
Limita la velocidad de descarga a 200 KB/s y espera 1 segundo entre cada solicitud para reducir la carga del servidor.
Consejos y precauciones
Es importante tener cuidado de no sobrecargar el servidor al usar wget -r y descargar solo los archivos necesarios para mejorar la eficiencia.
Consejos útiles
- Reducir la carga del servidor con la opción `--wait`: Enviar muchas solicitudes en intervalos cortos puede sobrecargar el servidor, por lo que es recomendable usar opciones como `--wait=1` (esperar 1 segundo).
- Limitar el ancho de banda con `--limit-rate`: Puede limitar la velocidad de descarga para no usar excesivamente el ancho de banda de la red.
- Cumplir con el estándar de exclusión de robots (`robots.txt`): La mayoría de los sitios web especifican las reglas de rastreo a través de un archivo `robots.txt`. `wget` lo respeta por defecto, pero también puede ignorarlo con la opción `--execute=robots=off` (no recomendado).
- Utilizar las opciones `-l` (profundidad) y `-np` (no subir al directorio padre) para evitar bucles infinitos: Una configuración incorrecta puede llevar a bucles infinitos o a la descarga de muchos archivos no deseados.
- Usar las opciones `-k` (convertir enlaces) y `-p` (requisitos de página) juntas para la navegación sin conexión: Estas dos opciones son esenciales para navegar sin problemas por los sitios web descargados localmente.