Descripción general
`wget` es una herramienta ubicua utilizada para descargar archivos de la web. La opción `-k` convierte los enlaces de los archivos HTML descargados a rutas locales, lo que permite navegar correctamente por las páginas web sin conexión a Internet. Esta es una función esencial para archivar partes específicas de un sitio web o consultarlas sin conexión.
Funciones principales (principalmente relacionadas con la opción -k)
- Conversión de enlaces de páginas web a rutas locales
- Soporte para navegación sin conexión
- Descarga de archivos relacionados como HTML, CSS, JS
- Descarga recursiva y espejado de sitios
Opciones principales
`wget` ofrece una variedad de opciones, pero presentamos las que son particularmente útiles para guardar páginas web sin conexión.
Conversión de enlaces y descarga recursiva
Guardar y administrar
Comando generado:
Combina los comandos.
Descripción:
`wget` Ejecutando el comando.
Combina las opciones anteriores para ejecutar virtualmente los comandos junto con la IA.
Ejemplos de uso
A continuación, se muestran varias formas de guardar páginas web sin conexión utilizando `wget` y la opción `-k`.
Guardar una sola página web sin conexión
wget -k -p https://example.com/page.html
Descarga una sola página HTML y todos los recursos necesarios para mostrarla (imágenes, CSS, etc.), y convierte los enlaces a rutas locales.
Guardar recursivamente hasta un nivel de un sitio web específico sin conexión
wget -r -l 1 -k -p https://example.com/blog/
Descarga páginas y recursos hasta un nivel de profundidad a partir de la URL especificada y convierte los enlaces.
Espejar un sitio web completo (incluyendo enlaces externos)
wget -r -l inf -k -p -H https://example.com/
Descarga recursivamente un sitio web completo a una profundidad infinita, incluyendo recursos de hosts externos, y convierte los enlaces. (Advertencia: puede descargar una gran cantidad de datos).
Guardar archivos descargados en un directorio específico
wget -r -l 1 -k -p -P ./offline_site https://example.com/
Guarda todos los archivos descargados en el subdirectorio `offline_site` del directorio actual.
Actualizar sin sobrescribir archivos existentes
wget -r -l 1 -k -p -nc https://example.com/
Si los archivos se descargaron previamente, no los sobrescribe; solo descarga archivos nuevos o modificados para actualizarlos.
Consejos y precauciones
Consejos útiles y precauciones al descargar sitios web con `wget`.
Consideraciones de rendimiento y ética
- **Usar `--wait=SECONDS`**: Es recomendable introducir un retraso entre solicitudes para no sobrecargar el servidor. (Ejemplo: `--wait=5`)
- **Usar `--limit-rate=AMOUNT`**: Puede limitar la velocidad de descarga para proteger el ancho de banda de su red. (Ejemplo: `--limit-rate=200k`)
- **Respetar `robots.txt`**: A menos que use la opción `--no-robots`, `wget` respeta el archivo `robots.txt` del sitio web. Esta es una buena práctica para seguir las políticas del operador del sitio web.
- **`--restrict-file-names=windows`**: Procesa caracteres especiales para que los nombres de archivo descargados sean compatibles con sistemas Windows. Útil en entornos multiplataforma.
- **Configurar `--user-agent`**: Algunos sitios web pueden requerir o bloquear ciertos User-Agents. Puede configurar el User-Agent según sea necesario. (Ejemplo: `--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36"`)