そろそろ第二次朝鮮戦争か?
【ソウル共同】
1997年に北朝鮮から韓国に亡命した黄長ヨプ元朝鮮労働党書記の死去から1年が過ぎた10日、韓国で暮らす北朝鮮脱出住民(脱北者)らでつくる「自由北韓運動連合」などが、南北非武装地帯に近い韓国・坡州市の臨津閣で、北朝鮮の体制を批判するビラ約20万枚を大型風船で北朝鮮に向けて飛ばした。
この日は、北朝鮮の朝鮮労働党の創立記念日にもあたる。
ビラには黄元書記の葬儀の模様や、北朝鮮の3代世襲を非難する内容が盛り込まれたほか、
韓国の経済発展を紹介する小冊子なども風船に付けられた。
ビラ散布の前には黄元書記の追悼式も行われた。
http://www.47news.jp/CN/201110/CN2011101001000540.html
カルト的だが、仮想敵国として対立する国家は、10年から11年の周期と、
下一桁1の年に戦争や被害的な事柄起きるという。
またそれは螺旋状に加速していくという定説がある。
朝鮮戦争は1950年から1953年7月27日まで続いたが、
傍からみれば、アホみたいにキムチ喰いながらいまでも徴兵義務で戦争したくてウズウズしてる。
開戦から61年・・・ギリギリの北朝鮮とエゴイズムの塊の韓国が戦争おきても不思議じゃなかったり。
そんな事を思った夜(´・ω・)ス
とあるC#のスクレイピングソフトの記録 1-4

★ここまでの流れ。
某サイトからスクレイピングでデータを引っ張ってきてMySQLにぶち込めと考える。
よくよくデータを確認すると名前、住所、電話、以外に、物件によってはURLやメール。
そしてキャッチコピーなど・・・・。
正規表現ならHAPでXpathでラックラクだお!と思いきや、やはり正規表現で、
ひらがらな、かたかな、漢字とそれぞれ正規表現抜くというメンドクサイドットコムに。
データを抜いたがいいが、今度はMySQlにぶち込むために、整形と書き出しに。
さて、前回までのコードを見直す。
正規表現は、
System.Text.RegularExpressions.Regex regex =
new System.Text.RegularExpressions.Regex(@"\b\p{IsHiragana}+\b");
System.Text.RegularExpressions.Regex regex2 =
new System.Text.RegularExpressions.Regex(@"\p{IsCJKUnifiedIdeographs}");
System.Text.RegularExpressions.Regex regex3 =
new System.Text.RegularExpressions.Regex(@"\p{IsKatakana}");
-- -略 --
string 文字 = node.InnerText.Substring(0, 1);
System.Text.RegularExpressions.Match m = regex.Match(文字); //ひらがな判定
System.Text.RegularExpressions.Match n = regex2.Match(文字); //漢字判定
System.Text.RegularExpressions.Match l = regex3.Match(文字); //カタカナ判定
で文字列一発目で判定させている。
で、今回、データがどれくらいになるのか分からないので、
csvで書き出して、カテゴリ毎、、いや、エリア毎にCSV
そこでMySQLにぶち込むことに。
本当に申し訳ないというか感謝だが、
WEBサイトからバンバン抽出しての格納が増えるので、
これは期待(´・ω・)ス





