Descripción general
wget es un descargador de red no interactivo que utiliza los protocolos HTTP, HTTPS y FTP para descargar archivos de servidores web. En particular, su función de descarga recursiva es una herramienta potente para copiar todo o parte de un sitio web localmente, permitiendo el acceso sin conexión, o para recopilar grandes cantidades de tipos de archivos específicos.
Características principales
- Espejado completo de sitios web y navegación sin conexión
- Mantenimiento de la estructura de directorios hasta la profundidad especificada
- Descarga selectiva de tipos de archivo específicos
- Conversión automática de enlaces a rutas de archivos locales después de la descarga
- Función de reanudación de descargas interrumpidas
Opciones principales
Opciones clave relacionadas con la descarga recursiva.
Control de descarga recursiva
Filtrado y comportamiento de descarga
Comando generado:
Combina los comandos.
Descripción:
`wget` Ejecutando el comando.
Combina las opciones anteriores para ejecutar virtualmente los comandos junto con la IA.
Ejemplos de uso
Diversos escenarios que utilizan la función de descarga recursiva de wget.
Descarga recursiva básica
wget -r http://example.com/docs/
Comienza en la URL especificada y descarga archivos siguiendo todos los enlaces secundarios.
Espejado completo de sitio web
wget -m -k -p http://example.com/
Espeja completamente un sitio web a nivel local. Convierte enlaces a rutas locales, descarga todos los elementos necesarios para la página y descarga solo archivos actualizados utilizando marcas de tiempo.
Descargar hasta una profundidad específica
wget -r -l 2 http://example.com/blog/
Limita la profundidad recursiva a 2, siguiendo los enlaces secundarios solo hasta 2 niveles desde la URL de inicio.
Descargar HTML y archivos relacionados (para vista sin conexión)
wget -r -p -k http://example.com/article.html
Descarga una página HTML específica y todos los archivos necesarios para mostrarla correctamente (imágenes, CSS, JS, etc.), y convierte los enlaces a rutas locales.
Descargar solo extensiones específicas
wget -r -A "*.pdf,*.doc" http://example.com/documents/
Descarga recursivamente solo archivos PDF y DOC del directorio especificado.
Establecer User-Agent e ignorar robots.txt
wget -r -U "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36" -e robots=off http://example.com/
Establece un User-Agent e ignora el archivo robots.txt para acceder a todo el contenido. (Usar con precaución)
Limitar velocidad de descarga y establecer tiempo de espera
wget -r --limit-rate=200k --wait=5 http://example.com/
Limita la velocidad de descarga a 200 KB/s y espera 5 segundos entre cada solicitud para reducir la carga del servidor.
Consejos y precauciones
La función de descarga recursiva de wget es potente, pero debe usarse con precaución, ya que puede sobrecargar el servidor o descargar datos innecesarios.
Consejos principales
- **Evitar sobrecargar el servidor**: Utilice la opción `--wait` para introducir un tiempo de espera entre solicitudes y evitar sobrecargar el servidor. También puede usar la opción `--random-wait` para establecer un tiempo de espera aleatorio.
- **Respetar `robots.txt`**: Por defecto, `wget` respeta el archivo `robots.txt`. A menos que haya una razón específica, evite usar la opción `-e robots=off`. Consulte la política del sitio web.
- **Configurar User-Agent**: Algunos sitios web pueden bloquear ciertos User-Agents o proporcionar contenido diferente. Establecer un User-Agent de navegador común con la opción `--user-agent` puede ser útil.
- **Limitar la profundidad de descarga**: Utilice la opción `-l` para limitar la profundidad recursiva y evitar descargar páginas secundarias innecesarias, ahorrando espacio en disco.
- **Advertencia de certificado**: `--no-check-certificate` desactiva la verificación de validez del certificado SSL/TLS, lo que presenta un riesgo de seguridad. No se recomienda su uso en sitios no confiables.
- **Reanudar descargas**: Utilice la opción `-c` o `--continue` para reanudar descargas interrumpidas previamente. Esto es útil para archivos grandes o en entornos de red inestables.