htmlの切り出しに使えるPerlのsplit、正規表現のマッチング

タグA 内容 なら(タグA,内容)=split(/タグA/,行の内容変数)

何行か読み出してスクレイピングして
出力に書き込む

タグBで終わるなら if(行の内容変数 =〜/タグB/) 終了処理

これでかなりhtmlソースをスクレイピングできる

正規表現は
タグなら<タグ名 属性>
"はバックスラッシュでエスケープ