概述
wget 的 `-L` 选项与递归下载 (`-r`) 选项一起使用时,指示 wget 只跟踪当前域内的相对路径链接。这在镜像网站的特定子目录或结构时,对于防止因外部链接导致下载不必要数据至关重要。
主要特点
- 仅跟踪相对链接,防止跳转到外部域
- 适合镜像网站的特定部分
- 与递归下载 (`-r`) 结合使用时功能强大
- 防止下载不必要的数据和浪费带宽
主要选项
`-L` 选项通常与其他 `wget` 选项结合使用时才能发挥其最大价值。
链接跟踪和下载
生成的命令:
请尝试组合命令。
描述:
`wget` 执行命令。
通过组合这些选项,您可以与 AI 一起虚拟地执行命令。
使用示例
使用 `-L` 选项的 `wget` 的各种使用示例。
仅跟随相对链接递归下载
wget -r -L -np http://example.com/docs/
从指定 URL 开始,仅跟随相对链接递归下载网站。不跳转到父目录。
下载后将链接转换为本地格式
wget -r -L -np -k http://example.com/docs/
与上一个示例相同,但下载的 HTML 文件中的链接将被转换为可在本地工作的格式。
保存到特定目录
wget -r -L -np -k -P my_docs http://example.com/docs/
将所有下载的文件保存在名为 'my_docs' 的目录下。
限制下载深度
wget -r -L -np -l 2 http://example.com/docs/
在递归下载时,仅跟随从起始 URL 开始的 2 层深度链接。
技巧与注意事项
使用 wget -L 的有用技巧和需要注意的事项。
高效使用的技巧
- **利用 `--level` 选项**: 使用 `-l` 选项限制递归下载的深度,可以防止下载不必要的文件并避免无限循环。
- **`--wait` 和 `--random-wait`**: 建议在请求之间设置延迟,以避免给服务器造成过大负担。这在大规模镜像时尤其有用。
- **`--limit-rate`**: 限制下载速度,可以有效管理网络带宽。
- **`--no-clobber`**: 防止覆盖已存在的文件,这有助于恢复中断的下载或避免意外损坏文件。
注意事项
- **服务器负载**: 过度的递归下载可能会给目标服务器带来负载。建议使用 `--wait` 选项调整请求间隔。
- **遵守 robots.txt**: 大多数网站通过 `robots.txt` 文件指定爬取规则。可以使用 `--execute robots=off` 选项忽略它,但这可能违反网站政策,请谨慎使用。
- **无限循环的可能性**: 错误的选项组合可能导致无限循环,消耗系统资源。特别是使用 `-L` 和 `-r` 时,使用 `-np` 或 `-l` 选项明确限制范围非常重要。