コミケ89(冬)落選

結局夏から更新できずすみません。冬コミは抽選落ちでした。
circle.msのページを見ると、何人かの方がお気に入りに入れてくださって
ありがたく思っています。現在次の夏に向けて執筆を続けている所です。
どうぞご期待ください。

・・・これだけでは何なので、ダウンロードに関する話でも。

文藝春秋の記事のクロール
文藝春秋のバックナンバーを記事ごとにダウンロードして、
タブ区切りの表にするPerlスクリプトを書きました。
https://github.com/muzina/db_crawler/blob/master/02_bungei_crawler.pl

    • 1990年7月から最新号までの各号の記事、約17000件を取得して出力します。
    • 記事は< p >タグで囲まれた領域を1つとみなします。例外も時々あります。
    • 2012年3月臨時増刊号の最初にはYoutubeの動画が入っていて、ここだけ空行になります。
    • 文藝春秋のサイトでは、「号」を単位とした検索ができますが、本スクリプトの結果なら「記事」単位の検索や絞り込みをおこなえます。
    • 各号のURLが連番っぽい作りなのですが、所々連番でなく飛んだり戻ったり別の記事が入ったりしているので、バックナンバーページのトップからURLを探しまわっています。

特に本のネタにもしづらかったのでここに置きます。

それではまた。