Inicio > Gestión de red > wget

wget: Guardar y descargar páginas web sin conexión

`wget` es una potente herramienta de línea de comandos para descargar archivos de forma no interactiva desde la web utilizando los protocolos HTTP, HTTPS y FTP. En particular, la opción `-k` (o `--convert-links`) convierte los enlaces dentro de los archivos HTML descargados para que coincidan con el sistema de archivos local, lo que permite navegar por las páginas web sin conexión. Esto es muy útil para espejar sitios web o archivar páginas específicas.

Descripción general

`wget` es una herramienta ubicua utilizada para descargar archivos de la web. La opción `-k` convierte los enlaces de los archivos HTML descargados a rutas locales, lo que permite navegar correctamente por las páginas web sin conexión a Internet. Esta es una función esencial para archivar partes específicas de un sitio web o consultarlas sin conexión.

Funciones principales (principalmente relacionadas con la opción -k)

  • Conversión de enlaces de páginas web a rutas locales
  • Soporte para navegación sin conexión
  • Descarga de archivos relacionados como HTML, CSS, JS
  • Descarga recursiva y espejado de sitios

Opciones principales

`wget` ofrece una variedad de opciones, pero presentamos las que son particularmente útiles para guardar páginas web sin conexión.

Conversión de enlaces y descarga recursiva

Guardar y administrar

Comando generado:

Combina los comandos.

Descripción:

`wget` Ejecutando el comando.

Combina las opciones anteriores para ejecutar virtualmente los comandos junto con la IA.

Ejemplos de uso

A continuación, se muestran varias formas de guardar páginas web sin conexión utilizando `wget` y la opción `-k`.

Guardar una sola página web sin conexión

wget -k -p https://example.com/page.html

Descarga una sola página HTML y todos los recursos necesarios para mostrarla (imágenes, CSS, etc.), y convierte los enlaces a rutas locales.

Guardar recursivamente hasta un nivel de un sitio web específico sin conexión

wget -r -l 1 -k -p https://example.com/blog/

Descarga páginas y recursos hasta un nivel de profundidad a partir de la URL especificada y convierte los enlaces.

Espejar un sitio web completo (incluyendo enlaces externos)

wget -r -l inf -k -p -H https://example.com/

Descarga recursivamente un sitio web completo a una profundidad infinita, incluyendo recursos de hosts externos, y convierte los enlaces. (Advertencia: puede descargar una gran cantidad de datos).

Guardar archivos descargados en un directorio específico

wget -r -l 1 -k -p -P ./offline_site https://example.com/

Guarda todos los archivos descargados en el subdirectorio `offline_site` del directorio actual.

Actualizar sin sobrescribir archivos existentes

wget -r -l 1 -k -p -nc https://example.com/

Si los archivos se descargaron previamente, no los sobrescribe; solo descarga archivos nuevos o modificados para actualizarlos.

Consejos y precauciones

Consejos útiles y precauciones al descargar sitios web con `wget`.

Consideraciones de rendimiento y ética

  • **Usar `--wait=SECONDS`**: Es recomendable introducir un retraso entre solicitudes para no sobrecargar el servidor. (Ejemplo: `--wait=5`)
  • **Usar `--limit-rate=AMOUNT`**: Puede limitar la velocidad de descarga para proteger el ancho de banda de su red. (Ejemplo: `--limit-rate=200k`)
  • **Respetar `robots.txt`**: A menos que use la opción `--no-robots`, `wget` respeta el archivo `robots.txt` del sitio web. Esta es una buena práctica para seguir las políticas del operador del sitio web.
  • **`--restrict-file-names=windows`**: Procesa caracteres especiales para que los nombres de archivo descargados sean compatibles con sistemas Windows. Útil en entornos multiplataforma.
  • **Configurar `--user-agent`**: Algunos sitios web pueden requerir o bloquear ciertos User-Agents. Puede configurar el User-Agent según sea necesario. (Ejemplo: `--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36"`)

Comandos de la misma categoría