wget
wgetはいろんなものをhttpで収集するのに非常に便利なので,知っておく必要がある.
wget --mirror --convert-links --no-parent url説明
- url
- 例えばhttp://hoge.com/fuga/foo/index.html等
- wget --mirror
- 指定したURLのファイルとそのファイルのリンク先となっているファイルをダウンロードする.
- --convert-links
- リンク先はダウンロード後の環境にあわせて変換する.
- --no-parent
- 指定したファイルの親ディレクトリはたどらない(ダウンロードしない).
wget -r -l1 --no-parent -A.jpg http://.....-A.jpgとか-A.gifでjpgファイルだけ,gifファイルだけ落とす,という指定ができる(実際は一旦落としてファイル名を見て指定したもの以外を消している雰囲気を感じた).wget全般に言えることらしいが,http://.....で指定するhtmlファイル内に書いてあるリンク先のファイルしか落とさない(っぽい).
たまになぜかうまく落せないサイトがある.そんなときは,
- --refererオプションを試す
- 直前に訪れたURLを偽る.
- --user-agentオプションを試す.
- Mozillaです,とかInternet Explorerです,とか偽る

