REFERER(参照元）を書き換える

HPによっては、参照元が自ドメインではない場合に「403 Forbidden」を返すようにしている場合があります。　これはHTTPヘッダーのREFERERを書き換えれば解決できます。


  import urllib2
  referer = 'http://aaa.com/' #参照元ドメイン
  opener = urllib2.build_opener()
  opener.addheaders = [('Referer',refere)] #HTTPヘッダーを追加する
  up = opener.open('http://aaa.com/aaa.html') #これで参照元ドメインを指定してhtmlを取得できる。

ただ、参照元ドメインでアクセス制限をかけているわけなので、ドメイン保持者の意思に反する事もあると思いますので、ほどほどにという事で。