Inicio > Gestión de red > wget

wget -r: Descarga recursiva de sitios web

wget -r es un comando potente que se utiliza para descargar de forma recursiva el contenido de un sitio web o un directorio específico a su sistema local. Es útil para explorar sitios web sin conexión o para hacer copias de seguridad, ya que sigue los enlaces y copia todos los archivos y directorios hasta una profundidad especificada.

Descripción general

wget -r explora y descarga automáticamente archivos y directorios de un servidor web hasta una profundidad especificada. Esto puede ser útil para espejar sitios web, navegar sin conexión o recopilar tipos específicos de archivos.

Funciones principales

  • Espejado completo de sitios web
  • Seguimiento de enlaces hasta una profundidad especificada
  • Filtrado de tipos de archivo
  • Conversión de enlaces para navegación sin conexión

Opciones principales

Estas son las opciones principales que le permiten controlar finamente el comportamiento de descarga recursiva al usar wget -r.

Control de descarga recursiva

Guardado y salida

Comando generado:

Combina los comandos.

Descripción:

`wget` Ejecutando el comando.

Combina las opciones anteriores para ejecutar virtualmente los comandos junto con la IA.

Ejemplos de uso

Estos son ejemplos prácticos de cómo usar el comando wget -r.

Descarga recursiva básica

wget -r https://example.com/docs/

Descarga recursivamente todo el contenido de una URL especificada.

Espejado de sitio web (profundidad limitada, conversión de enlaces)

wget -r -l 2 -k -p https://example.com/

Descarga un sitio web hasta una profundidad de 2 niveles y convierte los enlaces para que se puedan ver sin conexión.

Descargar solo tipos de archivo específicos

wget -r -A "*.pdf,*.doc" https://example.com/files/

Descarga recursivamente solo archivos PDF y DOC del directorio especificado.

Descargar sin subir al directorio padre

wget -r -np https://example.com/data/

Descarga recursivamente solo dentro del directorio actual y no sube al directorio padre.

Especificar directorio de descarga

wget -r -P /home/user/websites https://example.com/

Guarda todos los archivos descargados en un directorio local específico (/home/user/websites).

Limitar velocidad de descarga y establecer tiempo de espera

wget -r --limit-rate=200k --wait=1 https://example.com/large-site/

Limita la velocidad de descarga a 200 KB/s y espera 1 segundo entre cada solicitud para reducir la carga del servidor.

Consejos y precauciones

Es importante tener cuidado de no sobrecargar el servidor al usar wget -r y descargar solo los archivos necesarios para mejorar la eficiencia.

Consejos útiles

  • Reducir la carga del servidor con la opción `--wait`: Enviar muchas solicitudes en intervalos cortos puede sobrecargar el servidor, por lo que es recomendable usar opciones como `--wait=1` (esperar 1 segundo).
  • Limitar el ancho de banda con `--limit-rate`: Puede limitar la velocidad de descarga para no usar excesivamente el ancho de banda de la red.
  • Cumplir con el estándar de exclusión de robots (`robots.txt`): La mayoría de los sitios web especifican las reglas de rastreo a través de un archivo `robots.txt`. `wget` lo respeta por defecto, pero también puede ignorarlo con la opción `--execute=robots=off` (no recomendado).
  • Utilizar las opciones `-l` (profundidad) y `-np` (no subir al directorio padre) para evitar bucles infinitos: Una configuración incorrecta puede llevar a bucles infinitos o a la descarga de muchos archivos no deseados.
  • Usar las opciones `-k` (convertir enlaces) y `-p` (requisitos de página) juntas para la navegación sin conexión: Estas dos opciones son esenciales para navegar sin problemas por los sitios web descargados localmente.

Comandos de la misma categoría