コミケ89(冬)落選
結局夏から更新できずすみません。冬コミは抽選落ちでした。
circle.msのページを見ると、何人かの方がお気に入りに入れてくださって
ありがたく思っています。現在次の夏に向けて執筆を続けている所です。
どうぞご期待ください。
・・・これだけでは何なので、ダウンロードに関する話でも。
■文藝春秋の記事のクロール
文藝春秋のバックナンバーを記事ごとにダウンロードして、
タブ区切りの表にするPerlスクリプトを書きました。
https://github.com/muzina/db_crawler/blob/master/02_bungei_crawler.pl
-
- 1990年7月から最新号までの各号の記事、約17000件を取得して出力します。
- 記事は< p >タグで囲まれた領域を1つとみなします。例外も時々あります。
- 2012年3月臨時増刊号の最初にはYoutubeの動画が入っていて、ここだけ空行になります。
- 文藝春秋のサイトでは、「号」を単位とした検索ができますが、本スクリプトの結果なら「記事」単位の検索や絞り込みをおこなえます。
- 各号のURLが連番っぽい作りなのですが、所々連番でなく飛んだり戻ったり別の記事が入ったりしているので、バックナンバーページのトップからURLを探しまわっています。
特に本のネタにもしづらかったのでここに置きます。
それではまた。
コミケ88(夏)お礼
暑い中ブースに来てくださった方、ありがとうございました!
ダウンロードラボラトリのムジナです。
当日受け取ってくださった一部の方にはお渡しした、ペーパーの内容を以下に転記します。
1.正誤表
6頁2行目
(誤): http://shinrabansho.com/tss_chara/tss_chara_001.html
(正): http://shinrabansho.com/tss/tss_chara/tss_chara_001.html
2.表紙の説明
前: アルセーニエフ郷土史博物館展示のタイプライター
http://arseniev.org/locations/vladivostok/main/
後: 8頁のスクリプトのURL設定を間違った場合の画面表示
3.13ページのスクリプトについて
GitHubに掲載しました。お試しの場合はこちらからコピペをお願いします。
https://github.com/muzina/blog_crawler/blob/master/01_firstauthors_crawler
蒸し暑い日々が続きますが、お体を大切に♪
コミケ88(夏)の情報
コミケ88に参加します
- 2015年8月14日(金)
- 東ヒ08a
- ダウンロードラボラトリ
昔のネットランナーや、ハッカージャパンに載っているような、
Webデータの効率的なダウンロードに関するノウハウ本を出します。
いわゆるクローリング・スクレイピングに関する情報です。
カタROMからこのサイトを見に来てくれる方もいらっしゃるでしょうか。
7年ぶりのサークル参加、しかも書籍頒布は初なので、来ていただければ泣いて喜びます(本当に)。
宜しくお願いします。
現在入稿中。
本にならない小ネタはここのブログに載せようと思っていたのですが、
本を作るだけで精いっぱいになってしまいました。
生活リズムを変えたいものです。