Главная > Управление сетью > wget

wget -r: Рекурсивная загрузка веб-сайта

wget -r — это мощная команда, используемая для рекурсивной загрузки содержимого веб-сайта или определенного каталога в локальную систему. Она полезна для просмотра веб-сайтов в автономном режиме или для резервного копирования, поскольку она следует по ссылкам и копирует все файлы и каталоги до указанной глубины.

Обзор

wget -r автоматически сканирует и загружает файлы и каталоги с веб-сервера до указанной глубины. Это может быть полезно для зеркалирования веб-сайтов, автономного просмотра и сбора определенных типов файлов.

Основные функции

  • Полное зеркалирование веб-сайта
  • Отслеживание ссылок до указанной глубины
  • Фильтрация типов файлов
  • Преобразование ссылок для автономного просмотра

Основные опции

Основные опции, которые позволяют точно контролировать поведение рекурсивной загрузки при использовании wget -r.

Управление рекурсивной загрузкой

Сохранение и вывод

Сгенерированная команда:

Комбинируйте команды.

Описание:

`wget` Запускает команду.

Комбинируйте эти опции, чтобы виртуально выполнять команды с помощью ИИ.

Примеры использования

Примеры реального использования команды wget -r.

Базовая рекурсивная загрузка

wget -r https://example.com/docs/

Рекурсивно загружает все содержимое по указанному URL.

Зеркалирование веб-сайта (ограничение глубины, преобразование ссылок)

wget -r -l 2 -k -p https://example.com/

Загружает веб-сайт до глубины 2 и преобразует ссылки в локальные пути для автономного просмотра.

Загрузка только определенных типов файлов

wget -r -A "*.pdf,*.doc" https://example.com/files/

Рекурсивно загружает только PDF и DOC файлы из указанного каталога.

Загрузка без перехода в родительский каталог

wget -r -np https://example.com/data/

Рекурсивно загружает файлы только в текущем каталоге, не переходя в родительские каталоги.

Указать каталог загрузки

wget -r -P /home/user/websites https://example.com/

Сохраняет все загруженные файлы в указанный локальный каталог (/home/user/websites).

Ограничение скорости загрузки и установка времени ожидания

wget -r --limit-rate=200k --wait=1 https://example.com/large-site/

Ограничивает скорость загрузки до 200 КБ/с и делает паузу в 1 секунду между каждым запросом, чтобы снизить нагрузку на сервер.

Советы и меры предосторожности

При использовании wget -r важно избегать чрезмерной нагрузки на сервер и повышать эффективность, загружая только необходимые файлы.

Полезные советы

  • Снижение нагрузки на сервер с помощью опции `--wait`: Отправка большого количества запросов за короткий промежуток времени может создать нагрузку на сервер, поэтому рекомендуется использовать опции, такие как `--wait=1` (пауза 1 секунда).
  • Ограничение пропускной способности с помощью `--limit-rate`: Вы можете ограничить скорость загрузки, чтобы не использовать чрезмерно пропускную способность сети.
  • Соблюдение стандарта исключения роботов (`robots.txt`): Большинство веб-сайтов указывают правила сканирования в файле `robots.txt`. wget по умолчанию соблюдает их, но вы можете игнорировать их с помощью опции `--execute=robots=off` (не рекомендуется).
  • Использование опций `-l` (глубина) и `-np` (запрет перехода в родительский каталог) для предотвращения бесконечных циклов: Неправильная настройка может привести к бесконечному циклу или загрузке большого количества нежелательных файлов.
  • Использование опций `-k` (преобразование ссылок) и `-p` (необходимые для страницы элементы) вместе для автономного просмотра: Эти две опции необходимы для плавного просмотра загруженных веб-сайтов локально.

Те же команды в категории