Inicio > Gestión de red > wget

wget (descarga recursiva): Copiar un sitio web completo

La función de descarga recursiva de wget se utiliza para copiar un sitio web completo a nivel local o para descargar archivos manteniendo una estructura de directorios específica. Esto es muy útil para espejar sitios web, navegar sin conexión o recopilar tipos específicos de archivos. La descarga recursiva se activa con la opción `-r`, y varias opciones permiten controlar la profundidad de descarga, los tipos de archivo, la conversión de enlaces, etc.

Descripción general

wget es un descargador de red no interactivo que utiliza los protocolos HTTP, HTTPS y FTP para descargar archivos de servidores web. En particular, su función de descarga recursiva es una herramienta potente para copiar todo o parte de un sitio web localmente, permitiendo el acceso sin conexión, o para recopilar grandes cantidades de tipos de archivos específicos.

Características principales

  • Espejado completo de sitios web y navegación sin conexión
  • Mantenimiento de la estructura de directorios hasta la profundidad especificada
  • Descarga selectiva de tipos de archivo específicos
  • Conversión automática de enlaces a rutas de archivos locales después de la descarga
  • Función de reanudación de descargas interrumpidas

Opciones principales

Opciones clave relacionadas con la descarga recursiva.

Control de descarga recursiva

Filtrado y comportamiento de descarga

Comando generado:

Combina los comandos.

Descripción:

`wget` Ejecutando el comando.

Combina las opciones anteriores para ejecutar virtualmente los comandos junto con la IA.

Ejemplos de uso

Diversos escenarios que utilizan la función de descarga recursiva de wget.

Descarga recursiva básica

wget -r http://example.com/docs/

Comienza en la URL especificada y descarga archivos siguiendo todos los enlaces secundarios.

Espejado completo de sitio web

wget -m -k -p http://example.com/

Espeja completamente un sitio web a nivel local. Convierte enlaces a rutas locales, descarga todos los elementos necesarios para la página y descarga solo archivos actualizados utilizando marcas de tiempo.

Descargar hasta una profundidad específica

wget -r -l 2 http://example.com/blog/

Limita la profundidad recursiva a 2, siguiendo los enlaces secundarios solo hasta 2 niveles desde la URL de inicio.

Descargar HTML y archivos relacionados (para vista sin conexión)

wget -r -p -k http://example.com/article.html

Descarga una página HTML específica y todos los archivos necesarios para mostrarla correctamente (imágenes, CSS, JS, etc.), y convierte los enlaces a rutas locales.

Descargar solo extensiones específicas

wget -r -A "*.pdf,*.doc" http://example.com/documents/

Descarga recursivamente solo archivos PDF y DOC del directorio especificado.

Establecer User-Agent e ignorar robots.txt

wget -r -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36" -e robots=off http://example.com/

Establece un User-Agent e ignora el archivo robots.txt para acceder a todo el contenido. (Usar con precaución)

Limitar velocidad de descarga y establecer tiempo de espera

wget -r --limit-rate=200k --wait=5 http://example.com/

Limita la velocidad de descarga a 200 KB/s y espera 5 segundos entre cada solicitud para reducir la carga del servidor.

Consejos y precauciones

La función de descarga recursiva de wget es potente, pero debe usarse con precaución, ya que puede sobrecargar el servidor o descargar datos innecesarios.

Consejos principales

  • **Evitar sobrecargar el servidor**: Utilice la opción `--wait` para introducir un tiempo de espera entre solicitudes y evitar sobrecargar el servidor. También puede usar la opción `--random-wait` para establecer un tiempo de espera aleatorio.
  • **Respetar `robots.txt`**: Por defecto, `wget` respeta el archivo `robots.txt`. A menos que haya una razón específica, evite usar la opción `-e robots=off`. Consulte la política del sitio web.
  • **Configurar User-Agent**: Algunos sitios web pueden bloquear ciertos User-Agents o proporcionar contenido diferente. Establecer un User-Agent de navegador común con la opción `--user-agent` puede ser útil.
  • **Limitar la profundidad de descarga**: Utilice la opción `-l` para limitar la profundidad recursiva y evitar descargar páginas secundarias innecesarias, ahorrando espacio en disco.
  • **Advertencia de certificado**: `--no-check-certificate` desactiva la verificación de validez del certificado SSL/TLS, lo que presenta un riesgo de seguridad. No se recomienda su uso en sitios no confiables.
  • **Reanudar descargas**: Utilice la opción `-c` o `--continue` para reanudar descargas interrumpidas previamente. Esto es útil para archivos grandes o en entornos de red inestables.

Comandos de la misma categoría