Inicio > Gestión de red > wget

wget -L: Descargar recursivamente solo enlaces relativos

wget es una potente herramienta de línea de comandos utilizada para descargar archivos de servidores web de forma no interactiva. La opción `-L` o `--relative` instruye a wget a seguir solo los enlaces relativos de la URL especificada durante una descarga recursiva, lo que es útil para mantener la estructura de enlaces internos o secciones específicas de un sitio web al descargar. Esto evita la navegación innecesaria a dominios externos, permitiendo recopilar eficientemente solo el contenido deseado.

Descripción general

La opción `-L` de wget, cuando se usa junto con la descarga recursiva (`-r`), indica a wget que siga solo los enlaces de ruta relativa dentro del dominio actual. Esto juega un papel crucial en la duplicación de subdirectorios o estructuras específicas de un sitio web, evitando la descarga de datos innecesarios debido a enlaces externos.

Características principales

  • Sigue solo enlaces relativos, evitando la navegación a dominios externos.
  • Adecuado para duplicar secciones específicas de un sitio web.
  • Funciona potentemente cuando se usa con la descarga recursiva (`-r`).
  • Previene la descarga de datos innecesarios y el desperdicio de ancho de banda.

Opciones principales

La opción `-L` brilla cuando se combina con otras opciones de `wget`, en lugar de usarse de forma aislada.

Seguimiento y descarga de enlaces

Comando generado:

Combina los comandos.

Descripción:

`wget` Ejecutando el comando.

Combina las opciones anteriores para ejecutar virtualmente los comandos junto con la IA.

Ejemplos de uso

Varios ejemplos de uso de `wget` aprovechando la opción `-L`.

Descargar recursivamente solo enlaces relativos

wget -r -L -np http://example.com/docs/

Comienza en la URL especificada y descarga el sitio web recursivamente siguiendo solo los enlaces relativos. No sube al directorio padre.

Convertir enlaces para uso local después de la descarga

wget -r -L -np -k http://example.com/docs/

Descarga de la misma manera que el ejemplo anterior, pero convierte los enlaces dentro de los archivos HTML descargados para que funcionen localmente.

Guardar en un directorio específico

wget -r -L -np -k -P my_docs http://example.com/docs/

Guarda todos los archivos descargados en un directorio llamado 'my_docs'.

Limitar la profundidad de descarga

wget -r -L -np -l 2 http://example.com/docs/

Durante la descarga recursiva, sigue los enlaces solo hasta 2 niveles de profundidad desde la URL de inicio.

Consejos y precauciones

Consejos útiles y precauciones al usar wget -L.

Consejos para un uso eficiente

  • **Utilizar la opción `--level`**: La opción `-l` puede limitar la profundidad de la descarga recursiva, evitando la descarga de archivos innecesarios y previniendo bucles infinitos.
  • **`--wait` y `--random-wait`**: Es recomendable introducir un tiempo de espera entre solicitudes para no sobrecargar el servidor, especialmente útil para duplicaciones a gran escala.
  • **`--limit-rate`**: Puede limitar la velocidad de descarga para gestionar eficientemente el ancho de banda de la red.
  • **`--no-clobber`**: Evita sobrescribir archivos existentes, lo que ayuda a reanudar descargas interrumpidas o a prevenir la corrupción accidental de archivos.

Precauciones

  • **Carga del servidor**: Las descargas recursivas excesivas pueden sobrecargar el servidor de destino. Es recomendable ajustar el intervalo de solicitudes utilizando la opción `--wait`.
  • **Respetar robots.txt**: La mayoría de los sitios web especifican reglas de rastreo a través del archivo `robots.txt`. Aunque se puede ignorar con la opción `--execute robots=off`, esto puede violar las políticas del sitio web, por lo que debe usarse con precaución.
  • **Posibilidad de bucles infinitos**: Combinaciones de opciones incorrectas pueden provocar bucles infinitos, consumiendo recursos del sistema. Es especialmente importante limitar el alcance con opciones como `-np` o `-l` cuando se usan `-L` y `-r`.

Comandos de la misma categoría