ファイヤープロジェクト
wget
2003-02-23T00:00+09:00   matsu
wgetはいろんなものをhttpで収集するのに非常に便利なので,知っておく必要がある.
wget --mirror --convert-links --no-parent url
説明
url
例えばhttp://hoge.com/fuga/foo/index.html等
wget --mirror
指定したURLのファイルとそのファイルのリンク先となっているファイルをダウンロードする.
--convert-links
リンク先はダウンロード後の環境にあわせて変換する.
--no-parent
指定したファイルの親ディレクトリはたどらない(ダウンロードしない).
以前はmozillaでページを保存すると,本当にそのhtmlファイルしか落してくれなかった.が,最近はページで使用されている画像ファイルなども落してくれる.が,あるサイトのある部分をまるごと落したい場合にはやはり各ページを訪れて保存しなければならない.wgetは一気に落してくれる.下手すると膨大な量のファイルを落してくれる.常時接続環境がない場合にお世話になる(というかお世話になっている).
wget -r -l1 --no-parent -A.jpg http://.....
-A.jpgとか-A.gifでjpgファイルだけ,gifファイルだけ落とす,という指定ができる(実際は一旦落としてファイル名を見て指定したもの以外を消している雰囲気を感じた).wget全般に言えることらしいが,http://.....で指定するhtmlファイル内に書いてあるリンク先のファイルしか落とさない(っぽい).
たまになぜかうまく落せないサイトがある.そんなときは,
--refererオプションを試す
直前に訪れたURLを偽る.
--user-agentオプションを試す.
Mozillaです,とかInternet Explorerです,とか偽る
matsu(C)
Since 2002
Mail to matsu