wget -r: 递归下载网站

概述

wget -r 自动遍历并下载网站上的文件和目录，直到指定的深度。这对于镜像网站、离线浏览或收集特定类型的文件非常有用。

在使用 wget -r 时，可以通过以下主要选项来精细控制递归下载行为。

生成的命令：

请尝试组合命令。

描述：

`wget` 执行命令。

通过组合这些选项，您可以与 AI 一起虚拟地执行命令。

wget -r 命令的实际使用示例。

基本递归下载

wget -r https://example.com/docs/

递归下载指定 URL 的所有内容。

网站镜像（限制深度，转换链接）

wget -r -l 2 -k -p https://example.com/

将网站下载到深度为 2，并转换链接以便离线查看。

仅下载特定文件类型

wget -r -A "*.pdf,*.doc" https://example.com/files/

递归下载指定目录中的 PDF 和 DOC 文件。

不访问父目录的下载

wget -r -np https://example.com/data/

指定下载目录

wget -r -P /home/user/websites https://example.com/

将所有下载的文件保存到指定的本地目录 `/home/user/websites`。

限制下载速率和设置等待时间

wget -r --limit-rate=200k --wait=1 https://example.com/large-site/

将下载速率限制为 200KB/s，并在每次请求之间等待 1 秒，以减少服务器负载。

在使用 wget -r 时，请注意不要给服务器造成过大负担，并下载所需文件以提高效率。

使用 `--wait` 选项减少服务器负载：短时间内发送大量请求可能会给服务器带来压力，因此建议使用 `--wait=1`（等待 1 秒）等选项。
使用 `--limit-rate` 限制带宽：可以限制下载速率，避免过度占用网络带宽。
遵守 robots.txt 协议：大多数网站通过 `robots.txt` 文件指定爬取规则。wget 默认遵守此规则，但可以使用 `--execute=robots=off` 选项忽略（不推荐）。
使用 `-l`（深度）和 `-np`（禁止访问父目录）选项防止无限循环：错误的配置可能导致无限循环或下载大量不需要的文件。
结合使用 `-k`（转换链接）和 `-p`（下载页面必需文件）选项以进行离线浏览：这两个选项对于在本地流畅浏览下载的网站至关重要。