WEB系技術電脳日記 -477ページ目

茨城県へ

photo:01



拠点SYへ向かう。
またI市拠点Kにて障害連絡
ケーブル抜けと思われでアナウンス。

そんな朝(´・ω・)ス



iPhoneからの投稿

もうすぐ朝がくる(´・ω・)ス

$WEB系技術電脳日記

時間は4:30。
ヤバイ・・・朝が来る。
それも連休明けの朝。
振り返るとこの連休何やってたんだろう・・・と。

そんな暗い部屋で振り返る記録(´・ω・)ス

リアルなアメリカ国旗

$WEB系技術電脳日記


確かに・・・と。


日本ならどうだろうか。
真ん中に官僚か?

ハードディスクの進化

$WEB系技術電脳日記



こうみると凄い(´・ω・)ス

参照:Hard disk drives, 1979 to present.

夜(´・ω・)ス

先程から動かしてるプログラムも順調(´・ω・)ス

まったりと終わりまで様子を見る。

そんな夜

そろそろ第二次朝鮮戦争か?


【ソウル共同】
1997年に北朝鮮から韓国に亡命した黄長ヨプ元朝鮮労働党書記の死去から1年が過ぎた10日、韓国で暮らす北朝鮮脱出住民(脱北者)らでつくる「自由北韓運動連合」などが、南北非武装地帯に近い韓国・坡州市の臨津閣で、北朝鮮の体制を批判するビラ約20万枚を大型風船で北朝鮮に向けて飛ばした。

この日は、北朝鮮の朝鮮労働党の創立記念日にもあたる。
ビラには黄元書記の葬儀の模様や、北朝鮮の3代世襲を非難する内容が盛り込まれたほか、
韓国の経済発展を紹介する小冊子なども風船に付けられた。
ビラ散布の前には黄元書記の追悼式も行われた。
http://www.47news.jp/CN/201110/CN2011101001000540.html


カルト的だが、仮想敵国として対立する国家は、10年から11年の周期と、
下一桁1の年に戦争や被害的な事柄起きるという。
またそれは螺旋状に加速していくという定説がある。

朝鮮戦争は1950年から1953年7月27日まで続いたが、
傍からみれば、アホみたいにキムチ喰いながらいまでも徴兵義務で戦争したくてウズウズしてる。
開戦から61年・・・ギリギリの北朝鮮とエゴイズムの塊の韓国が戦争おきても不思議じゃなかったり。

そんな事を思った夜(´・ω・)ス






さて、ゲームでも(´・ω・)ス

先程作ったプログラムはサブ機へ移動。
そんな訳で終わるには随分と時間が掛かる模様なので、
ゲームでも。

CSOでも。

そんな夜。

とあるスクレイピングの記録 1-5 ここまでをまとめる(´・ω・)ス

$WEB系技術電脳日記

一応完成だが、ここまでのルーティンをまとめてみる。
コード書く前にまとめればよかったと反省ドットコム(´・ω・)ス

1.設定
using HtmlAgilityPack;を使うとusing
ベースのURLを宣言
カテゴリ/エリアの外部ファイルを読んで配列に格納。
カテゴリ/エリアの配列の0番を宣言
タイマーを秒数宣言

2.スタート
XPathでそれぞれ格納 テキストボックスに書き出す。
エリアがMAXだったらカテゴリを+してエリアを配列0に。
それ以外ならエリアを+してページを増やす。

上記の流れでテキストボックスは肥大化するので、
CSVに書き出しておk


さて・・・稼動させるか。
長かったような・・・。

WEB系技術電脳日記-WEB系 やらないか?

散歩(´・ω・)ス

photo:01



飲み物買いに出撃(´・ω・)ス
そして少し散歩。

そんな夜の記録



iPhoneからの投稿

とあるC#のスクレイピングソフトの記録 1-4

$WEB系技術電脳日記


★ここまでの流れ。
某サイトからスクレイピングでデータを引っ張ってきてMySQLにぶち込めと考える。
よくよくデータを確認すると名前、住所、電話、以外に、物件によってはURLやメール。
そしてキャッチコピーなど・・・・。
正規表現ならHAPでXpathでラックラクだお!と思いきや、やはり正規表現で、
ひらがらな、かたかな、漢字とそれぞれ正規表現抜くというメンドクサイドットコムに。
データを抜いたがいいが、今度はMySQlにぶち込むために、整形と書き出しに。


さて、前回までのコードを見直す。
正規表現は、


System.Text.RegularExpressions.Regex regex =
 new System.Text.RegularExpressions.Regex(@"\b\p{IsHiragana}+\b");
System.Text.RegularExpressions.Regex regex2 =
new System.Text.RegularExpressions.Regex(@"\p{IsCJKUnifiedIdeographs}");
System.Text.RegularExpressions.Regex regex3 =
 new System.Text.RegularExpressions.Regex(@"\p{IsKatakana}");

-- -略 --
string 文字 = node.InnerText.Substring(0, 1);
System.Text.RegularExpressions.Match m = regex.Match(文字); //ひらがな判定 
System.Text.RegularExpressions.Match n = regex2.Match(文字); //漢字判定
System.Text.RegularExpressions.Match l = regex3.Match(文字); //カタカナ判定


で文字列一発目で判定させている。
で、今回、データがどれくらいになるのか分からないので、
csvで書き出して、カテゴリ毎、、いや、エリア毎にCSV
そこでMySQLにぶち込むことに。

本当に申し訳ないというか感謝だが、
WEBサイトからバンバン抽出しての格納が増えるので、
これは期待(´・ω・)ス


WEB系技術電脳日記-WEB系 やらないか?