ホーム > ネットワーク管理 > wget

wget: ウェブサイトのミラーリングとオフライン保存

wgetは、HTTP、HTTPS、FTPプロトコルを使用してウェブサーバーからファイルやウェブサイトをダウンロードするための強力なコマンドラインツールです。特に`-m`(mirror)オプションは、ウェブサイト全体をローカルにミラーリングしてオフラインで閲覧できるようにします。これは、ウェブサイトのバックアップ、アーカイブ、またはインターネット接続なしでコンテンツを確認する必要がある場合に非常に役立ちます。

概要

wgetの`-m`オプションは、ウェブサイトのすべてのページと必要なリソース(画像、CSS、JavaScriptなど)を再帰的にダウンロードし、ローカルのディレクトリ構造を維持します。ダウンロードされたファイル内のリンクをローカルファイルパスに変換し、オフラインでもスムーズに閲覧できるようにサポートします。

主な特徴

wget -mを使用したウェブサイトミラーリングの主な機能です。

  • ウェブサイト全体の再帰的ダウンロード
  • オフライン閲覧のためのリンク自動変換
  • ダウンロードの進行状況と中断されたダウンロードの再開をサポート
  • ロボット排除標準(robots.txt)のデフォルト準拠

主なオプション

ウェブサイトのミラーリング時に役立つwgetのオプションです。

ミラーリングと再帰的ダウンロード

ファイル処理とリンク変換

ダウンロード制御

生成されたコマンド:

コマンドを組み合わせてみてください。

説明:

`wget` コマンドを実行します。

これらのオプションを組み合わせて、AIと一緒に仮想的にコマンドを実行してみてください。

使用例

wget -mを活用したウェブサイトミラーリングの実際の例です。

基本的なウェブサイトミラーリング

wget -m https://example.com

指定したURLのウェブサイトをローカルにミラーリングします。

すべてのリソースを含め、リンクを変換

wget -m -p -k https://example.com

HTMLページに必要なすべてのリソース(画像、CSSなど)をダウンロードし、リンクをローカルパスに変換します。

ダウンロード間に5秒待機

wget -m -w 5 https://example.com

サーバーへの過負荷を防ぐため、各リクエスト間に5秒間待機します。

特定のディレクトリにミラーリング

wget -m -P /var/www/offline_site https://example.com

ダウンロードしたウェブサイトを指定したローカルディレクトリ(/var/www/offline_site)に保存します。

最大再帰深度を指定

wget -m -l 2 https://example.com

ウェブサイトをミラーリングしますが、開始URLから最大2段階の深さまでのみダウンロードします。

ヒントと注意点

wget -mを使用する際は、ウェブサーバーに過負荷をかけないように注意し、十分な保存容量を確保してください。

パフォーマンスと倫理的考慮事項

ウェブサイトのミラーリング時に考慮すべき重要な事項です。

  • **サーバー負荷**: `-w`(wait)オプションを使用してリクエスト間に遅延を設けることで、対象サーバーへの負荷を軽減することが重要です。短すぎる間隔はサーバーからのブロックにつながる可能性があります。
  • **保存容量**: 大規模なウェブサイトをミラーリングする場合、多くのディスク容量が必要になる可能性があるため、事前に保存容量を確認し、十分に確保してください。
  • **`robots.txt`の遵守**: `wget`はデフォルトでウェブサイトの`robots.txt`ファイルを遵守します。これを無視するには`-e robots=off`オプションを使用する必要がありますが、これはウェブサイトのポリシーに違反する可能性があるため、慎重に使用してください。
  • **ユーザーエージェント**: `-U`(user-agent)オプションでユーザーエージェントを設定し、サーバーがリクエストを識別できるようにすることが推奨されます。デフォルトの`wget`ユーザーエージェントは、一部のサーバーでブロックされる可能性があります。
  • **ログの確認**: `wget`はダウンロードの進行状況とエラーをターミナルに出力し、`-o logfile.txt`オプションでログをファイルに保存して後で確認できます。

同じカテゴリのコマンド