どうも、ねへほもんです。
先程の敗北宣言の記事に関し、からばこさんに詫びを入れました。
ただ、何も手土産が無いのは良くないと思い、初歩的なスクレイピングの成果物をご連携しました。
1.大会一覧をまとめるだけ
むしろそのプロセスをブログで読みたいですマジで
とご意見いただいたので、今日2本目の記事にします。
作業内容は以下の通りです。
こちらのイザジンの大会一覧を、
こんな感じで表形式にまとめます。
WIXOSSBOX的には、Twitter上での結果報告を見に行くのですから、Twitterのリンク先が最も重要な情報となります。
イザジンのサイト自体、表形式に並んではいるので、ドラッグ→コピー→Excelへペーストという原始人ムーヴでもやれなくはありません。
実際に飛鳥文化アタックをするとこんな感じになりました。
行方向に無駄に長いとか、不要な画像が映り込んでいるとか、かなり手直しは必要ですが、何のツールも無くこの程度のことができるのです。
ということは、
目標:原始人ムーヴ+手直しよりも早く仕上げる
要求事項①:面倒なツールの準備(プログラミング等)はやらない
要求事項②:コピペしてExcelに貼った後の手直しを極力減らす
ことが求められます。
手作業でもできなくはない位単純な作業ですが、それを更に簡単に、手早くしないと意味が無いため、これはこれで大変と言えます。
が、何とかできました。
ばこさんに詫びを入れつつ最低限の成果物には出来たと思います。
という訳で、今度こそOctoparse君の出番です。
2.Octoparse操作全手順
物理的にコピペする位単純かつスピーディーにというミッションが課された訳なので、どれほど簡単か、全手順を画像で説明します。
抜粋ではありません。全手順です。これ以外は何もしていません。
①ホーム画面
新規作成>カスタマイズタスクを選択。
テンプレートタスクはTwitterとかAmazonとか、有名サイトのサイト形式に合わせ、簡単にデータを拾えるように設定されているやつです。
が、前回敗北宣言記事でご説明した通り、Twitterに使おうとして課金圧に屈しました。
カスタマイズタスクは無料なのでご安心を。
②URLを入力
入力して保存を押すだけ。
③作業画面(作業前)
URLを保存した後に遷移する画面です。まだ何も触ってはいません。
ここでOctoparseの最強コマンド「Webページを自動検出する」を実行してみましょう。
④作業画面(自動検出後)
運が良かっただけの気もしますが、開催予定一覧の表の部分が選択され、
「こんな感じで表形式に取り込めばいいんでしょ?」と提案されました。
まさに希望通りの形式だったので、最強コマンドその2「ワークフローを作成」をクリックします。
⑤ワークフローを見て実行
右側のように、ワークフローが表示されます。
イザジンページを開いて、1ページ目のデータを読み込んで、2ページ目に進んでまたデータを読み込むという一連の流れが自動的に作成されました。
これまた希望通りの形式だったので、右上の実行をクリックし、実際に読み込んでExcelにデータを書き出します。
⑥Excelへエクスポート
データを読み込めたため、Excelへ書き出します。
当然ですが、実行中はボーっと待っているだけです。
⑦Excelで軽く手直し
取り込まれたデータはこんな感じです。
見づらくはありますが、原始的に手動でコピペして不要な画像が貼り付けられるよりは数倍綺麗です。
空白の行を消し、必要な列以外を削除し、列名を修正すると、
完成です。
全手順を紹介する都合上、7つに分かれてしまいましたが、実際に手を動かした作業は、
・手順通りにボタンをクリック
・イザジンのURLを入力
・出力されたExcelを手直し
だけです。
めっちゃ簡単。インストールすれば誰でもできます。
今回は単純な事例として、2ページだけの表をコピーしており、手作業でも出来なくはありませんでしたが、機械なら10ページだろうが100ページだろうが自動的にこなしてくれます。
興味を持たれた方は、今回のイザジンの例で雰囲気を掴んで、手作業では無理ゲーな位重い作業にも挑戦してみてください。
では(^^)/