WEBスクレイピング再び(´・ω・)ス | WEB系技術電脳日記

WEBスクレイピング再び(´・ω・)ス

新川の小町食堂で夕食後、また会社に戻り作業。
ちと、手元テキストもあるが、適度にメモが代わりに記事でも。
例の如く、作業しながら更新(´・ω・)ス
C#で一時期回していたが、今回はPHPで取得して、
あげく最新は取得しつつ、重複をエスケープしてみるのが目的。

22:23
目的のサイトのAPIを確認しつつジャンルを確認4桁数字でidなので、
表示しているジャンルはソースから確認
id ジャンルは完了で、
引き続きパラメータを確定してみる。
p にクラス囲いでcid=で値も了解
画像もspan クラスでimg

PHP Simple HTML DOM Parser あたりが有名らしいので利用
http://simplehtmldom.sourceforge.net/
http://simplehtmldom.sourceforge.net/manual.htm

22:37

早速テスト

22:46

おりょりょん氏より入電
うは、飲んでたのか。行けば良かったな…

22:55  やはりちと遅いな正規表現で書いたほうがいいか?
23:01 PHPバージョン確認 PHP Version 5.5.29 おk(´・ω・)ス
23:23 表示制限が30でそんなに遅くないか。あとはDBに入れるか

01:04 結局 PHP Simple HTML DOM Parser でforeachでfind探しだして
    $entryに格納後、preg_matchからの正規表現という
    何とも絞まらないコードが誕生
    使ってなかったものね。しばらく正規表現。
    とりあえずリストのページの取得ができたので、
    次は下層ページの取得へ
    一度DBに入れとくかな?
    うん、それでぶん回せばね。うん。/sort=date/でぶん回す(´・ω・)ス
01:31 取得完了なので、DBにブチ込む、カラムは昼間作ったもので、
02:41 タイトルの入れ込みは完了だが、これをどうやって回すか更にヲチ(´・ω・)ス
    というか明日早いので帰るかな