Главная > Управление сетью > wget

wget -L: Рекурсивная загрузка только по относительным ссылкам

wget — это мощный инструмент командной строки, используемый для неинтерактивной загрузки файлов с веб-серверов. Опция `-L` или `--relative` при рекурсивной загрузке указывает следовать только относительным ссылкам указанного URL, что полезно при сохранении определенного раздела веб-сайта или его внутренней структуры ссылок. Это предотвращает ненужное сканирование внешних доменов, позволяя эффективно собирать только нужный контент.

Обзор

Опция `-L` в wget при использовании с рекурсивной загрузкой (`-r`) указывает отслеживать только ссылки с относительными путями в пределах текущего домена. Это играет ключевую роль в предотвращении загрузки ненужных данных из-за внешних ссылок при зеркалировании определенных поддиректорий или структур веб-сайта.

Основные возможности

  • Отслеживает только относительные ссылки, предотвращая переход на внешние домены
  • Подходит для зеркалирования определенных разделов веб-сайта
  • Мощная функциональность при использовании с рекурсивной загрузкой (`-r`)
  • Предотвращает загрузку ненужных данных и потерю пропускной способности

Основные опции

Опция `-L` раскрывает свой истинный потенциал при использовании в сочетании с другими опциями `wget`, а не сама по себе.

Отслеживание и загрузка ссылок

Сгенерированная команда:

Комбинируйте команды.

Описание:

`wget` Запускает команду.

Комбинируйте эти опции, чтобы виртуально выполнять команды с помощью ИИ.

Примеры использования

Различные примеры использования `wget` с опцией `-L`.

Рекурсивная загрузка только по относительным ссылкам

wget -r -L -np http://example.com/docs/

Начиная с указанного URL, рекурсивно загружает веб-сайт, следуя только относительным ссылкам. Не переходит в родительские каталоги.

Преобразование ссылок для локального использования после загрузки

wget -r -L -np -k http://example.com/docs/

Загружает так же, как в предыдущем примере, но преобразует ссылки в загруженных HTML-файлах для работы локально.

Сохранение в определенную директорию

wget -r -L -np -k -P my_docs http://example.com/docs/

Сохраняет все загруженные файлы в директорию 'my_docs'.

Ограничение глубины загрузки

wget -r -L -np -l 2 http://example.com/docs/

При рекурсивной загрузке следует по ссылкам только до 2 уровней вглубь от начального URL.

Советы и предостережения

Полезные советы и моменты, на которые следует обратить внимание при использовании wget -L.

Советы для эффективного использования

  • **Используйте опцию `--level`**: Опция `-l` позволяет ограничить глубину рекурсивной загрузки, предотвращая загрузку ненужных файлов и избегая бесконечных циклов.
  • **`--wait` и `--random-wait`**: Рекомендуется делать паузы между запросами, чтобы не перегружать сервер. Это особенно полезно при масштабном зеркалировании.
  • **`--limit-rate`**: Ограничение скорости загрузки позволяет эффективно управлять пропускной способностью сети.
  • **`--no-clobber`**: Предотвращает перезапись существующих файлов, что позволяет возобновлять прерванные загрузки или избегать случайного повреждения файлов.

Предостережения

  • **Нагрузка на сервер**: Чрезмерная рекурсивная загрузка может создавать нагрузку на целевой сервер. Рекомендуется использовать опцию `--wait` для регулирования интервалов между запросами.
  • **Соблюдение robots.txt**: Большинство веб-сайтов указывают правила сканирования в файле `robots.txt`. Опция `--execute robots=off` может игнорировать их, но это может нарушать политику веб-сайта, поэтому используйте ее с осторожностью.
  • **Возможность бесконечного цикла**: Неправильные комбинации опций могут вызвать бесконечный цикл, потребляя ресурсы системы. Особенно при использовании `-L` и `-r` важно четко ограничивать диапазон с помощью опций `-np` или `-l`.

Те же команды в категории