アメブロのHTMLからページ情報の文字列を切り出すsedスクリプトーバックアップ用BATその1 | 勝手に応援するブログ

勝手に応援するブログ

 
   人権侵害、性暴力、人身取引、等などがない社会になることをのぞんでいます。
 
   でも、ブログ筆者の立場は矛盾に満ちています。

アメブロアメーバのページをバックアップフロッピー(青)保存するための WindowsWindows.BATファイルを作成中なのです..が、

ページの情報(URLや「ファイル名」等)を、
HTMLの「中の」著者名JavaScript(の方)から(Windowsの)downloadコマンドに渡す?! というのは、
『「セキュリティ」の問題』があって、なかなかムツカシイ?!みたいです。あせあせ

・・なので、WindowsWindowsのコマンドの側から、
これらの情報を「取りにいく」走る人ようにしないといけないのかな?!?!・・・ですね。!?

(アメブロYouTubeばぶチャンネルみてね!(^◎^)ばぶーのページを)表示してる(firefoxプラウザ上の)「場所」で、
ボタン一発クリックバックアップ!!ダウン」みたいなことを考えていたのですが、...あはは。。。あせる

それはとりあえず、あきらめ(保留にし)ておくことにしまして、・・汗


マイクロSDカード・リーダーライターUSBメモリを差し込んで、(自動再生で)ひらいた別ウィンドウが開きますウィンドウでダブルクリック左クリック
(アメブロのAmeba(アメーバ)ページを選んで ボタンクリックを押したらバックアップフロッピー(ピンク)
・・くらいにしとこかな?!あせってところです。


実は、すでにもう、
それに近いことは「やっている」のですが、・・・汗

バックアップするアメブロBlogページのURLをURL2手動(コピペseiマウスコマンド渡すというのが、
メンドクサイショボところです。DASH!

それをなんとか、・・
もう少し、めんどくさくない方法にしたいと、考えていたのでありました。シラーはてなマーク


アメブロ側(FirefoxWebブラウザ)から WindowsWindowsコマンドに「情報」を渡すやり方は、とりま、あきらめて、
WindowsWindowsコマンドの側から、(Web上の)アメーバ(白地)アメブロページにアクセスして、
「情報」を取ってくる右矢印グーことを考えることにします。

cURL.exe で、HTMLをダウンロードします。ぐるーん

この curl コマンドに渡す URLURL(の文字列)情報を、(今までは)手動コピペで「与えて」いたのですが、
そこをなんとか、もうちょと、簡単に(手抜きに)できないモノか?!?!はてなマーク


ってことで、その第1弾?としまして、
アメブロYouTubeばぶチャンネルみてね!(^◎^)ばぶーのページの HTMLから、必要な情報を「切り出す」コマンドを考えます。


sedSED.exeスクリプトにて、やってみました。

ambpg.sed
#!sed.exe -f
# アメブロページのHTMLからページの情報を切り出す.
# 2017.06.10.

# titleタグの内容.
/<title>/s/<title>\(.*\)<\/title>/\1/p

# 投稿日時
/articleTime/s/^.*>\(2[0-9]*-[0-9]*-[0-9]* *[0-9]*:[0-9]*:[0-9]*\)<.*$/\1/p

# 元ページURLと記事タイトル
/skinArticleTitle/,/<\/a>/H
$g
$s/^.*<a href="\([^"]*\)".*\(\n\) *\(.*\) *\n.*$/\1\2\3/p


実行結果画面(その1)
ambpg.sedの実行結果画面その1
 ※Windowsのコマンドプロンプトで ambpg.sed を実行その1(curlの出力をそのまま「食わせて」います)。


Windowsの「コマンドプロンプト」は、"文字化け"をおこしていますが、
とりま、「うまくいっているように見え」ます。。。あせ


でも、・・・

実行結果画面(その2)
ambpg.sedの実行結果画面その2
 ※Windowsのコマンドプロンプトで ambpg.sed を実行その2(curlの出力をそのまま「食わせて」います)。


あれれっ?! ダメです。
2ページ目、3ページ目、5ページ目の「出力」行数が足らないですね。。。あせ

HTMLタグの「構造」は、各ページとも同じはずです?!!?


"文字化け"が問題??なのでしょうか?!はてなマーク

・・・で、nkfコマンド(nkf.exe )で"文字化け"「修正」してみます。


WindowsWindows(の「コマンドプロンプト」)は、「マイクロソフト拡張JIS(シフトJIS)コード」という「独自」のキャラクタ・セットを使用するorzので、Webページの(一般的な)文字セットとは異なっており、こういうことが起こるのだと思います。汗でも、・・その「独自」の「拡張」が、「一般的」になってしまっていることが「恐ろしい」ですね叫びドンッ



実行結果画面(その3)
ambpg.sedの実行結果画面その3
 ※Windowsのコマンドプロンプトで ambpg.sed を実行その3(curlの出力を nkf で shift-JIS に変換しました)。


・・・問題なく「動作」してるみたいです。あはは。。。


これで、「半自動化」できるかな??ひらめき電球あせ

(つづく)