WEBスクレイピング再び(´・ω・)ス
新川の小町食堂で夕食後、また会社に戻り作業。
ちと、手元テキストもあるが、適度にメモが代わりに記事でも。
例の如く、作業しながら更新(´・ω・)ス
C#で一時期回していたが、今回はPHPで取得して、
あげく最新は取得しつつ、重複をエスケープしてみるのが目的。
22:23
目的のサイトのAPIを確認しつつジャンルを確認4桁数字でidなので、
表示しているジャンルはソースから確認
id ジャンルは完了で、
引き続きパラメータを確定してみる。
p にクラス囲いでcid=で値も了解
画像もspan クラスでimg
PHP Simple HTML DOM Parser あたりが有名らしいので利用
http://simplehtmldom.sourceforge.net/
http://simplehtmldom.sourceforge.net/manual.htm
22:37
早速テスト
22:46
おりょりょん氏より入電
うは、飲んでたのか。行けば良かったな…
22:55 やはりちと遅いな正規表現で書いたほうがいいか?
23:01 PHPバージョン確認 PHP Version 5.5.29 おk(´・ω・)ス
23:23 表示制限が30でそんなに遅くないか。あとはDBに入れるか
01:04 結局 PHP Simple HTML DOM Parser でforeachでfind探しだして
$entryに格納後、preg_matchからの正規表現という
何とも絞まらないコードが誕生
使ってなかったものね。しばらく正規表現。
とりあえずリストのページの取得ができたので、
次は下層ページの取得へ
一度DBに入れとくかな?
うん、それでぶん回せばね。うん。/sort=date/でぶん回す(´・ω・)ス
01:31 取得完了なので、DBにブチ込む、カラムは昼間作ったもので、
02:41 タイトルの入れ込みは完了だが、これをどうやって回すか更にヲチ(´・ω・)ス
というか明日早いので帰るかな
ちと、手元テキストもあるが、適度にメモが代わりに記事でも。
例の如く、作業しながら更新(´・ω・)ス
C#で一時期回していたが、今回はPHPで取得して、
あげく最新は取得しつつ、重複をエスケープしてみるのが目的。
22:23
目的のサイトのAPIを確認しつつジャンルを確認4桁数字でidなので、
表示しているジャンルはソースから確認
id ジャンルは完了で、
引き続きパラメータを確定してみる。
p にクラス囲いでcid=で値も了解
画像もspan クラスでimg
PHP Simple HTML DOM Parser あたりが有名らしいので利用
http://simplehtmldom.sourceforge.net/
http://simplehtmldom.sourceforge.net/manual.htm
22:37
早速テスト
22:46
おりょりょん氏より入電
うは、飲んでたのか。行けば良かったな…
22:55 やはりちと遅いな正規表現で書いたほうがいいか?
23:01 PHPバージョン確認 PHP Version 5.5.29 おk(´・ω・)ス
23:23 表示制限が30でそんなに遅くないか。あとはDBに入れるか
01:04 結局 PHP Simple HTML DOM Parser でforeachでfind探しだして
$entryに格納後、preg_matchからの正規表現という
何とも絞まらないコードが誕生
使ってなかったものね。しばらく正規表現。
とりあえずリストのページの取得ができたので、
次は下層ページの取得へ
一度DBに入れとくかな?
うん、それでぶん回せばね。うん。/sort=date/でぶん回す(´・ω・)ス
01:31 取得完了なので、DBにブチ込む、カラムは昼間作ったもので、
02:41 タイトルの入れ込みは完了だが、これをどうやって回すか更にヲチ(´・ω・)ス
というか明日早いので帰るかな