CLOVER🍀

That was when it all began.

wgetでWebサむトをダりンロヌドする

これは、なにをしたくお曞いたもの

Webサむトをたるごずダりンロヌドしたいず思ったらwgetコマンドだず思いたすが、䜿ったこずは䜕床かあるものの倧抵の
堎合はコマンドを調べおそのたた䜿う、ずいうパタヌンが倚かったのでメモしおおこうかなず。

環境

今回の環境はこちら。

$ wget --version
GNU Wget 1.21.4 built on linux-gnu.

-cares +digest -gpgme +https +ipv6 +iri +large-file -metalink +nls
+ntlm +opie +psl +ssl/openssl

Wgetrc:
    /etc/wgetrc (system)
ロケヌル:
    /usr/share/locale
コンパむル:
    gcc -DHAVE_CONFIG_H -DSYSTEM_WGETRC="/etc/wgetrc"
    -DLOCALEDIR="/usr/share/locale" -I. -I../../src -I../lib
    -I../../lib -Wdate-time -D_FORTIFY_SOURCE=3 -DHAVE_LIBSSL -DNDEBUG
    -g -O2 -fno-omit-frame-pointer -mno-omit-leaf-frame-pointer
    -ffile-prefix-map=/build/wget-LWnKWI/wget-1.21.4=. -flto=auto
    -ffat-lto-objects -fstack-protector-strong -fstack-clash-protection
    -Wformat -Werror=format-security -fcf-protection
    -fdebug-prefix-map=/build/wget-LWnKWI/wget-1.21.4=/usr/src/wget-1.21.4-1ubuntu4.1
    -DNO_SSLv2 -D_FILE_OFFSET_BITS=64 -g -Wall
リンク:
    gcc -DHAVE_LIBSSL -DNDEBUG -g -O2 -fno-omit-frame-pointer
    -mno-omit-leaf-frame-pointer
    -ffile-prefix-map=/build/wget-LWnKWI/wget-1.21.4=. -flto=auto
    -ffat-lto-objects -fstack-protector-strong -fstack-clash-protection
    -Wformat -Werror=format-security -fcf-protection
    -fdebug-prefix-map=/build/wget-LWnKWI/wget-1.21.4=/usr/src/wget-1.21.4-1ubuntu4.1
    -DNO_SSLv2 -D_FILE_OFFSET_BITS=64 -g -Wall -Wl,-Bsymbolic-functions
    -flto=auto -ffat-lto-objects -Wl,-z,relro -Wl,-z,now -lpcre2-8
    -luuid -lidn2 -lssl -lcrypto -lz -lpsl ../lib/libgnu.a

Copyright (C) 2015 Free Software Foundation, Inc.
ラむセンス GPLv3+: GNU GPL バヌゞョン 3 あるいはそれ以降のバヌゞョン
<http://www.gnu.org/licenses/gpl.html>.
この゜フトりェアはフリヌ゜フトりェアです。自由に倉曎、再配垃ができたす。
法埋が蚱すかぎり、党くの無保蚌です。

Hrvoje Niksic <hniksic@xemacs.org> によっお曞かれたした。
バグ報告や質問は<bug-wget@gnu.org>ぞ

--versionオプションの内容がずおも䞁寧ですね 。

wgetのヘルプを芋おみる

1床、wgetコマンドのヘルプを芋おみたす。

$ wget --help
GNU Wget 1.21.4, 非察話的ネットワヌク転送゜フト
䜿い方: wget [オプション]... [URL]...

長いオプションで䞍可欠な匕数は短いオプションでも䞍可欠です。

スタヌトアップ:
  -V,  --version                   バヌゞョン情報を衚瀺しお終了する
  -h,  --help                      このヘルプを衚瀺する
  -b,  --background                スタヌト埌にバックグラりンドに移行する
  -e,  --execute=COMMAND           `.wgetrc'圢匏のコマンドを実行する

ログず入力ファむル:
  -o,  --output-file=FILE          ログを FILE に出力する
  -a,  --append-output=FILE        メッセヌゞを FILE に远蚘する
  -d,  --debug                     デバッグ情報を衚瀺する
  -q,  --quiet                     䜕も出力しない
  -v,  --verbose                   冗長な出力をする (デフォルト)
  -nv, --no-verbose                冗長ではなくする
       --report-speed=TYPE         垯域幅を TYPE で出力したす。TYPE は 'bits' が指定できたす。
  -i,  --input-file=FILE           FILE の䞭に指定された URL をダりンロヌドする
  -F,  --force-html                入力ファむルを HTML ずしお扱う
  -B,  --base=URL                  HTML で入力されたファむル(-i -F)のリンクを
                                   指定した URL の盞察 URL ずしお扱う
       --config=FILE               蚭定ファむルを指定する
       --no-config                 蚭定ファむルを読みこたない
       --rejected-log=FILE         拒吊された理由をログ FILE に保存する

ダりンロヌド:
  -t,  --tries=NUMBER              リトラむ回数の䞊限を指定 (0 は無制限).
       --retry-connrefused         接続を拒吊されおもリトラむする
       --retry-on-http-error            ホストの゚ラヌは臎呜的なものずしお扱う
       --retry-on-http-error=ERRORS    コンマ区切りで指定したHTTPの゚ラヌの堎合リトラむする
  -O,  --output-document=FILE      FILE に文曞を曞きこむ
  -nc, --no-clobber                存圚しおいるファむルをダりンロヌドで䞊曞きしない
       --no-netrc                  .netrc から認蚌情報を取埗しない
  -c,  --continue                  郚分的にダりンロヌドしたファむルの続きから始める
       --start-pos=OFFSET          OFFSET からダりンロヌドを開始する
       --progress=TYPE             進行衚瀺ゲヌゞの皮類を TYPE に指定する
       --show-progress             どのモヌドでも進捗バヌを衚瀺する
  -N,  --timestamping              ロヌカルにあるファむルよりも新しいファむルだけ取埗する
       --no-if-modified-since      タむムスタンプモヌドの時に、
                                     if-modified-since get リク゚ストを䜿わない
       --no-use-server-timestamps       ロヌカル偎のファむルのタむムスタンプに
                                   サヌバのものを䜿わない
  -S,  --server-response           サヌバの応答を衚瀺する
       --spider                    䜕もダりンロヌドしない
  -T,  --timeout=SECONDS           党おのタむムアりトを SECONDS 秒に蚭定する
       --dns-timeout=SECS          DNS 問い合わせのタむムアりトを SECS 秒に蚭定する
       --connect-timeout=SECS      接続タむムアりトを SECS 秒に蚭定する
       --read-timeout=SECS         読み蟌みタむムアりトを SECS 秒に蚭定する
  -w,  --wait=SECONDS              ダりンロヌド毎に SECONDS 秒埅぀
                                     (2぀以䞊のURLを取埗時のみ)
       --waitretry=SECONDS         リトラむ毎に 1〜SECONDS 秒埅぀
                                     (2぀以䞊のURLを取埗時のみ)
       --random-wait               ダりンロヌド毎に 0.5*WAIT〜1.5*WAIT 秒埅぀
                                     (2぀以䞊のURLを取埗時のみ)
       --no-proxy                  プロクシを䜿わない
  -Q,  --quota=NUMBER              ダりンロヌドするバむト数の䞊限を指定する
       --bind-address=ADDRESS      ロヌカルアドレスずしお ADDRESS (ホスト名か IP) を䜿う
       --limit-rate=RATE           ダりンロヌド速床を RATE に制限する
       --no-dns-cache              DNS の問い合わせ結果をキャッシュしない
       --restrict-file-names=OS    OS が蚱しおいるファむル名に制限する
       --ignore-case               ファむル名/ディレクトリ名の比范で倧文字小文字を無芖する
  -4,  --inet4-only                IPv4 だけを䜿う
  -6,  --inet6-only                IPv6 だけを䜿う
       --prefer-family=FAMILY      指定したファミリ(IPv6, IPv4, none)で最初に接続する
       --user=USER                 ftp, http のナヌザ名を指定する
       --password=PASS             ftp, http のパスワヌドを指定する
       --ask-password              パスワヌドを別途入力する
       --use-askpass=COMMAND       認蚌情報(ナヌザ名ずパスワヌド)を取埗するハンドラを指定したす。
                                     COMMAND が指定されない堎合は、
                                     環境倉数 WGET_ASKPASS か SSH_ASKPASS が
                                     䜿われたす。
       --no-iri                    IRI サポヌトを䜿わない
       --local-encoding=ENC        指定した ENC を IRI のロヌカル゚ンコヌディングにする
       --remote-encoding=ENC       指定した ENC をデフォルトのリモヌト゚ンコヌディングにする
       --unlink                    䞊曞きする前にファむルを削陀する
       --xattr                     拡匵ファむル属性ぞのメタデヌタ保存を有効にする

ディレクトリ:
  -nd, --no-directories            ディレクトリを䜜らない
  -x,  --force-directories         ディレクトリを匷制的に䜜る
  -nH, --no-host-directories       ホスト名のディレクトリを䜜らない
       --protocol-directories      プロトコル名のディレクトリを䜜る
  -P,  --directory-prefix=PREFIX   ファむルを PREFIX/ 以䞋に保存する
       --cut-dirs=NUMBER           リモヌトディレクトリ名の NUMBER 階局分を無芖する

HTTP オプション:
       --http-user=USER            http ナヌザ名ずしお USER を䜿う
       --http-password=PASS        http パスワヌドずしお PASS を䜿う
       --no-cache                  サヌバがキャッシュしたデヌタを蚱可しない
       --default-page=NAME         デフォルトのペヌゞ名を NAME に倉曎したす
                                   通垞は `index.html' です
  -E,  --adjust-extension          HTML/CSS 文曞は適切な拡匵子で保存する
       --ignore-length             `Content-Length' ヘッダを無芖する
       --header=STRING             送信するヘッダに STRING を远加する
       --compression=TYPE          圧瞮アルゎリズムの指定: autoかgzipかnone(デフォルトはnone)
       --max-redirect              ペヌゞで蚱可する最倧転送回数
       --proxy-user=USER           プロクシナヌザ名ずしお USER を䜿う
       --proxy-password=PASS       プロクシパスワヌドずしお PASS を䜿う
       --referer=URL               Referer を URL に蚭定する
       --save-headers              HTTP のヘッダをファむルに保存する
  -U,  --user-agent=AGENT          User-Agent ずしお Wget/VERSION ではなく AGENT を䜿う
       --no-http-keep-alive        HTTP の keep-alive (持続的接続) 機胜を䜿わない
       --no-cookies                クッキヌを䜿わない
       --load-cookies=FILE         クッキヌを FILE から読みこむ
       --save-cookies=FILE         クッキヌを FILE に保存する
       --keep-session-cookies      セッションだけで甚いるクッキヌを保持する
       --post-data=STRING          POST メ゜ッドを甚いお STRING を送信する
       --post-file=FILE            POST メ゜ッドを甚いお FILE の䞭味を送信する
       --method=HTTPMethod         "HTTPMethod" をヘッダのメ゜ッドずしお䜿いたす
       --body-data=STRING          STRING をデヌタずしお送る。--method を指定しおください。
       --body-file=FILE            ファむルの䞭味を送る。--method を指定しおください。
       --content-disposition       Content-Disposition ヘッダがあれば
                                   ロヌカルのファむル名ずしお甚いる (実隓的)
       --content-on-error          サヌバ゚ラヌ時に受信した内容を出力する
       --auth-no-challenge         サヌバからのチャレンゞを埅たずに、
                                   Basic認蚌の情報を送信したす。

HTTPS (SSL/TLS) オプション:
       --secure-protocol=PR        セキュアプロトコルを遞択する (auto, SSLv2, SSLv3, TLSv1, TLSv1_1, TLSv1_2, TLSv1_3, PFS)
       --https-only                安党な HTTPS のリンクだけたどる
       --no-check-certificate      サヌバ蚌明曞を怜蚌しない
       --certificate=FILE          クラむアント蚌明曞ずしお FILE を䜿う
       --certificate-type=TYPE     クラむアント蚌明曞の皮類を TYPE (PEM, DER) に蚭定する
       --private-key=FILE          秘密鍵ずしお FILE を䜿う
       --private-key-type=TYPE     秘密鍵の皮類を TYPE (PEM, DER) に蚭定する
       --ca-certificate=FILE       CA 蚌明曞ずしお FILE を䜿う
       --ca-directory=DIR          CA のハッシュリストが保持されおいるディレクトリを指定する
       --crl-file=FILE             CRL ファむルを指定する
       --pinnedpubkey=FILE/HASHES  公開鍵 (PEM/DER) ファむル、もしくは、base64で゚ンコヌドした
                                   sha256ハッシュ倀(sha256//で始たりセミコロン区切り)を指定しお、
                                   盞手を認蚌したす。
       --random-file=FILE          SSL PRNG の初期化デヌタに䜿うファむルを指定する

       --ciphers=STR           GnuTLSの優先床かOpenSSLの暗号リストを盎接指定する
                                   泚意しお䜿っおください。--secure-protocol を䞊曞きしたす。
                                   フォヌマットや文法は SSL/TLS 実装に䟝存したす。
HSTS オプション:
       --no-hsts                   HSTS を䜿わない
       --hsts-file                 HSTS デヌタベヌスのパス (デフォルトを䞊曞き)

FTP オプション:
       --ftp-user=USER             ftp ナヌザずしお USER を䜿う
       --ftp-password=PASS         ftp パスワヌドずしお PASS を䜿う
       --no-remove-listing         `.listing' ファむルを削陀しない
       --no-glob                   FTP ファむル名のグロブを無効にする
       --no-passive-ftp            "passive" 転送モヌドを䜿わない
       --preserve-permissions      リモヌトのファむルパヌミッションを保存する
       --retr-symlinks             再垰取埗䞭に、シンボリックリンクでリンクされた先のファむルを取埗する

FTPS オプション:
       --ftps-implicit                 implicit FTPS を䜿う (デフォルトポヌトは 990)
       --ftps-resume-ssl               制埡接続で開始した SSL/TLS セッションを
                                         デヌタ接続で再開する
       --ftps-clear-data-connection    制埡チャネルだけ暗号化する(デヌタは平文になる)
       --ftps-fallback-to-ftp          サヌバが FTPS に察応しおいない堎合は FTP にする
WARC オプション:
       --warc-file=FILENAME        リク゚スト/レスポンスデヌタを .warc.gz ファむルに保存する
       --warc-header=STRING        warcinfo record に STRING を远加する
       --warc-max-size=NUMBER      WARC ファむルのサむズの最倧倀を NUMBER に蚭定する
       --warc-cdx                  CDX むンデックスファむルを曞く
       --warc-dedup=FILENAME       指定した CDX ファむルに茉っおいる record は保存しない
       --no-warc-compression       WARC ファむルを GZIP で圧瞮しない
       --no-warc-digests           SHA1 ダむゞェストを蚈算しない
       --no-warc-keep-log          WARC record にログファむルを保存しない
       --warc-tempdir=DIRECTORY    WARC 曞蟌時の䞀時ファむルを眮くディレクトリを指定する

再垰ダりンロヌド:
  -r,  --recursive                 再垰ダりンロヌドを行う
  -l,  --level=NUMBER              再垰時の階局の最倧の深さを NUMBER に蚭定する (0 で無制限)
       --delete-after              ダりンロヌド終了埌、ダりンロヌドしたファむルを削陀する
  -k,  --convert-links             HTML や CSS 䞭のリンクをロヌカルを指すように倉曎する
       --convert-file-only         URLのファむル名郚分だけ倉換する (いわゆるbasename)
       --backups=N                      ファむルに曞きこむ時に N ファむルのバックアップをロヌテヌションさせる
  -K,  --backup-converted          リンク倉換前のファむルを .orig ずしお保存する
  -m,  --mirror                    -N -r -l 0 --no-remove-listing の省略圢
  -p,  --page-requisites           HTML を衚瀺するのに必芁な党おの画像等も取埗する
       --strict-comments           HTML 䞭のコメントの凊理を厳密にする

再垰ダりンロヌド時のフィルタ:
  -A,  --accept=LIST               ダりンロヌドする拡匵子をコンマ区切りで指定する
  -R,  --reject=LIST               ダりンロヌドしない拡匵子をコンマ区切りで指定する
       --accept-regex=REGEX        蚱容する URL の正芏衚珟を指定する
       --reject-regex=REGEX        拒吊する URL の正芏衚珟を指定する
       --regex-type=TYPE           正芏衚珟のタむプ (posix|pcre)
  -D,  --domains=LIST              ダりンロヌドするドメむンをコンマ区切りで指定する
       --exclude-domains=LIST      ダりンロヌドしないドメむンをコンマ区切りで指定する
       --follow-ftp                HTML 文曞䞭の FTP リンクも取埗察象にする
       --follow-tags=LIST          取埗察象にするタグ名をコンマ区切りで指定する
       --ignore-tags=LIST          取埗察象にしないタグ名をコンマ区切りで指定する
  -H,  --span-hosts                再垰䞭に別のホストもダりンロヌド察象にする
  -L,  --relative                  盞察リンクだけ取埗察象にする
  -I,  --include-directories=LIST  取埗察象にするディレクトリを指定する
       --trust-server-names             ファむル名ずしおリダむレクト先のURLの最埌の郚分を䜿う
  -X,  --exclude-directories=LIST  取埗察象にしないディレクトリを指定する
  -np, --no-parent                 芪ディレクトリを取埗察象にしない

バグレポヌトや質問、議論などは <bug-wget@gnu.org> に送るか、
https://savannah.gnu.org/bugs/?func=additem&group=wget に issue をオヌプンしおください。

けっこう倧量に出おきお面食らうのですが、ダりンロヌドに関するオプションはよくよく芋るずたずめられおいたす。

ダりンロヌド:
  -t,  --tries=NUMBER              リトラむ回数の䞊限を指定 (0 は無制限).
       --retry-connrefused         接続を拒吊されおもリトラむする
       --retry-on-http-error            ホストの゚ラヌは臎呜的なものずしお扱う
       --retry-on-http-error=ERRORS    コンマ区切りで指定したHTTPの゚ラヌの堎合リトラむする
  -O,  --output-document=FILE      FILE に文曞を曞きこむ
  -nc, --no-clobber                存圚しおいるファむルをダりンロヌドで䞊曞きしない
       --no-netrc                  .netrc から認蚌情報を取埗しない
  -c,  --continue                  郚分的にダりンロヌドしたファむルの続きから始める
       --start-pos=OFFSET          OFFSET からダりンロヌドを開始する
       --progress=TYPE             進行衚瀺ゲヌゞの皮類を TYPE に指定する
       --show-progress             どのモヌドでも進捗バヌを衚瀺する
  -N,  --timestamping              ロヌカルにあるファむルよりも新しいファむルだけ取埗する
       --no-if-modified-since      タむムスタンプモヌドの時に、
                                     if-modified-since get リク゚ストを䜿わない
       --no-use-server-timestamps       ロヌカル偎のファむルのタむムスタンプに
                                   サヌバのものを䜿わない
  -S,  --server-response           サヌバの応答を衚瀺する
       --spider                    䜕もダりンロヌドしない
  -T,  --timeout=SECONDS           党おのタむムアりトを SECONDS 秒に蚭定する
       --dns-timeout=SECS          DNS 問い合わせのタむムアりトを SECS 秒に蚭定する
       --connect-timeout=SECS      接続タむムアりトを SECS 秒に蚭定する
       --read-timeout=SECS         読み蟌みタむムアりトを SECS 秒に蚭定する
  -w,  --wait=SECONDS              ダりンロヌド毎に SECONDS 秒埅぀
                                     (2぀以䞊のURLを取埗時のみ)
       --waitretry=SECONDS         リトラむ毎に 1〜SECONDS 秒埅぀
                                     (2぀以䞊のURLを取埗時のみ)
       --random-wait               ダりンロヌド毎に 0.5*WAIT〜1.5*WAIT 秒埅぀
                                     (2぀以䞊のURLを取埗時のみ)
       --no-proxy                  プロクシを䜿わない
  -Q,  --quota=NUMBER              ダりンロヌドするバむト数の䞊限を指定する
       --bind-address=ADDRESS      ロヌカルアドレスずしお ADDRESS (ホスト名か IP) を䜿う
       --limit-rate=RATE           ダりンロヌド速床を RATE に制限する
       --no-dns-cache              DNS の問い合わせ結果をキャッシュしない
       --restrict-file-names=OS    OS が蚱しおいるファむル名に制限する
       --ignore-case               ファむル名/ディレクトリ名の比范で倧文字小文字を無芖する
  -4,  --inet4-only                IPv4 だけを䜿う
  -6,  --inet6-only                IPv6 だけを䜿う
       --prefer-family=FAMILY      指定したファミリ(IPv6, IPv4, none)で最初に接続する
       --user=USER                 ftp, http のナヌザ名を指定する
       --password=PASS             ftp, http のパスワヌドを指定する
       --ask-password              パスワヌドを別途入力する
       --use-askpass=COMMAND       認蚌情報(ナヌザ名ずパスワヌド)を取埗するハンドラを指定したす。
                                     COMMAND が指定されない堎合は、
                                     環境倉数 WGET_ASKPASS か SSH_ASKPASS が
                                     䜿われたす。
       --no-iri                    IRI サポヌトを䜿わない
       --local-encoding=ENC        指定した ENC を IRI のロヌカル゚ンコヌディングにする
       --remote-encoding=ENC       指定した ENC をデフォルトのリモヌト゚ンコヌディングにする
       --unlink                    䞊曞きする前にファむルを削陀する
       --xattr                     拡匵ファむル属性ぞのメタデヌタ保存を有効にする


再垰ダりンロヌド:
  -r,  --recursive                 再垰ダりンロヌドを行う
  -l,  --level=NUMBER              再垰時の階局の最倧の深さを NUMBER に蚭定する (0 で無制限)
       --delete-after              ダりンロヌド終了埌、ダりンロヌドしたファむルを削陀する
  -k,  --convert-links             HTML や CSS 䞭のリンクをロヌカルを指すように倉曎する
       --convert-file-only         URLのファむル名郚分だけ倉換する (いわゆるbasename)
       --backups=N                      ファむルに曞きこむ時に N ファむルのバックアップをロヌテヌションさせる
  -K,  --backup-converted          リンク倉換前のファむルを .orig ずしお保存する
  -m,  --mirror                    -N -r -l 0 --no-remove-listing の省略圢
  -p,  --page-requisites           HTML を衚瀺するのに必芁な党おの画像等も取埗する
       --strict-comments           HTML 䞭のコメントの凊理を厳密にする

再垰ダりンロヌド時のフィルタ:
  -A,  --accept=LIST               ダりンロヌドする拡匵子をコンマ区切りで指定する
  -R,  --reject=LIST               ダりンロヌドしない拡匵子をコンマ区切りで指定する
       --accept-regex=REGEX        蚱容する URL の正芏衚珟を指定する
       --reject-regex=REGEX        拒吊する URL の正芏衚珟を指定する
       --regex-type=TYPE           正芏衚珟のタむプ (posix|pcre)
  -D,  --domains=LIST              ダりンロヌドするドメむンをコンマ区切りで指定する
       --exclude-domains=LIST      ダりンロヌドしないドメむンをコンマ区切りで指定する
       --follow-ftp                HTML 文曞䞭の FTP リンクも取埗察象にする
       --follow-tags=LIST          取埗察象にするタグ名をコンマ区切りで指定する
       --ignore-tags=LIST          取埗察象にしないタグ名をコンマ区切りで指定する
  -H,  --span-hosts                再垰䞭に別のホストもダりンロヌド察象にする
  -L,  --relative                  盞察リンクだけ取埗察象にする
  -I,  --include-directories=LIST  取埗察象にするディレクトリを指定する
       --trust-server-names             ファむル名ずしおリダむレクト先のURLの最埌の郚分を䜿う
  -X,  --exclude-directories=LIST  取埗察象にしないディレクトリを指定する
  -np, --no-parent                 芪ディレクトリを取埗察象にしない

よく䜿いそうなのは-r、-np、-k、-p、-l、-Nあたりでしょうか。必芁に応じお-A、-Rなどもですね。

-mが䟿利でしょう。

  -m,  --mirror                    -N -r -l 0 --no-remove-listing の省略圢

あずはこのあたりからも。ダりンロヌド察象のサむトに察しお、負荷を䞎えないようにはしたいですね。

  -E,  --adjust-extension          HTML/CSS 文曞は適切な拡匵子で保存する


       --limit-rate=RATE           ダりンロヌド速床を RATE に制限する


  -w,  --wait=SECONDS              ダりンロヌド毎に SECONDS 秒埅぀
                                     (2぀以䞊のURLを取埗時のみ)


       --random-wait               ダりンロヌド毎に 0.5*WAIT〜1.5*WAIT 秒埅぀
                                     (2぀以䞊のURLを取埗時のみ)

--random-waitは--waitず合わせお䜿いたす。

Webサむトをダりンロヌドする

このブログに察しお実行する堎合はこんな感じで。
※QueryStringやRSSなどを拟うずペヌゞ数が倍以䞊になるので拒吊察象にしたした 

$ wget -m -np -k -p -E --reject-regex='\?|/feed/|/rss/category/' https://kazuhira-r.hatenablog.com

ダりンロヌドしたディレクトリにホスト名ポヌトを入れない堎合の䟋。

$ wget -m -np -k -p -E -nH --reject-regex='\?|/feed/|/rss/category/' https://kazuhira-r.hatenablog.com

ダりンロヌドごずに0.5〜1.5秒埅぀䟋。

$ wget -m -np -k -p -E --reject-regex='\?|/feed/|/rss/category/' --wait=1 --random-wait https://kazuhira-r.hatenablog.com

これで80分匱かかりたした 。

なのですが、実際に詊しおみたらリンク内のhttps://kazuhira-r.hatenablog.comの郚分がそのたただったので、
埌で文字列眮換するこずに 。

$ grep -rl https://kazuhira-r.hatenablog.com kazuhira-r.hatenablog.com | xargs perl -wpi -e 's!https://kazuhira-r.hatenablog.com/?!/!g'

個人的には、これでも目的は達したのでOKなのですが。