単に置換してデータを手に入れるか、スクレイピングスクリプトを書くか

こういうページ「http://www.google.com/support/news/bin/answer.py?answer=40237&topic=8851」から、国名とURLの組を手に入れたいとき、どうしますか?

  1. 手作業で切り貼り(面倒くさい…)
  2. htmlで書かれたソースの必要な部分だけ切り取ってきて、エディタで置換しまくる
  3. htmlで書かれたソースをスクレイピングするスクリプトを書く

もちろん、同じ作業を繰り返す場合は、3.がよいと思うのだけれど、暫定的にデータが得られればいいだけなら、2.も結構アリだよねと思います。結局置換って、htmlパーサー使わない時に、コードとして自分で書くロジックだから。

そんなことを考えました。

これって、面接の問題にもいいかも(^ω^)…自画自賛ごめんなさい。

同じ「Word(国際)」カテゴリでも、国ごと言語ごとで視点が変わると、扱っているニュースが随分違っておもしろいよね(あぶないなー)というのを拾うプログラムを書いています。で、それをインタラクティブアートの素材にするんだ、今年、多分。