Обзор
wget -r автоматически сканирует и загружает файлы и каталоги с веб-сервера до указанной глубины. Это может быть полезно для зеркалирования веб-сайтов, автономного просмотра и сбора определенных типов файлов.
Основные функции
- Полное зеркалирование веб-сайта
- Отслеживание ссылок до указанной глубины
- Фильтрация типов файлов
- Преобразование ссылок для автономного просмотра
Основные опции
Основные опции, которые позволяют точно контролировать поведение рекурсивной загрузки при использовании wget -r.
Управление рекурсивной загрузкой
Сохранение и вывод
Сгенерированная команда:
Комбинируйте команды.
Описание:
`wget` Запускает команду.
Комбинируйте эти опции, чтобы виртуально выполнять команды с помощью ИИ.
Примеры использования
Примеры реального использования команды wget -r.
Базовая рекурсивная загрузка
wget -r https://example.com/docs/
Рекурсивно загружает все содержимое по указанному URL.
Зеркалирование веб-сайта (ограничение глубины, преобразование ссылок)
wget -r -l 2 -k -p https://example.com/
Загружает веб-сайт до глубины 2 и преобразует ссылки в локальные пути для автономного просмотра.
Загрузка только определенных типов файлов
wget -r -A "*.pdf,*.doc" https://example.com/files/
Рекурсивно загружает только PDF и DOC файлы из указанного каталога.
Загрузка без перехода в родительский каталог
wget -r -np https://example.com/data/
Рекурсивно загружает файлы только в текущем каталоге, не переходя в родительские каталоги.
Указать каталог загрузки
wget -r -P /home/user/websites https://example.com/
Сохраняет все загруженные файлы в указанный локальный каталог (/home/user/websites).
Ограничение скорости загрузки и установка времени ожидания
wget -r --limit-rate=200k --wait=1 https://example.com/large-site/
Ограничивает скорость загрузки до 200 КБ/с и делает паузу в 1 секунду между каждым запросом, чтобы снизить нагрузку на сервер.
Советы и меры предосторожности
При использовании wget -r важно избегать чрезмерной нагрузки на сервер и повышать эффективность, загружая только необходимые файлы.
Полезные советы
- Снижение нагрузки на сервер с помощью опции `--wait`: Отправка большого количества запросов за короткий промежуток времени может создать нагрузку на сервер, поэтому рекомендуется использовать опции, такие как `--wait=1` (пауза 1 секунда).
- Ограничение пропускной способности с помощью `--limit-rate`: Вы можете ограничить скорость загрузки, чтобы не использовать чрезмерно пропускную способность сети.
- Соблюдение стандарта исключения роботов (`robots.txt`): Большинство веб-сайтов указывают правила сканирования в файле `robots.txt`. wget по умолчанию соблюдает их, но вы можете игнорировать их с помощью опции `--execute=robots=off` (не рекомендуется).
- Использование опций `-l` (глубина) и `-np` (запрет перехода в родительский каталог) для предотвращения бесконечных циклов: Неправильная настройка может привести к бесконечному циклу или загрузке большого количества нежелательных файлов.
- Использование опций `-k` (преобразование ссылок) и `-p` (необходимые для страницы элементы) вместе для автономного просмотра: Эти две опции необходимы для плавного просмотра загруженных веб-сайтов локально.