2017-08

Latest Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

あの日はどんな日だった?

[mixi] キーワードランキングを見て、前からやりたいと思っていたことを思い出した。つまり、日記(ブログ)を日付で結ぶというもの。紙の日記帳で5年日記だの10年日記だのがあるけど、あの感じで他の人の日記と見比べることができるもの。
どういうインターフェースがいいのか分からないけど、とりあえず手を動かした。

A Day in Hatena Diary

まず、Yahoo!検索ウェブサービスで、site:d.hatena.ne.jpでYYYYMMDDを検索。inurl:YYYYMMDDならそのページを見に行く(Yahoo! APIではinurlができない。さらに1000件しか取れない)。<!-- google_ad_section_start -->から<!-- google_ad_section_end -->の間を本文として、タグを除いてMeCabにかけ、固有名詞と一般名詞を取り出す。MeCabをさくらにインストールするのが面倒なので、ここまでローカルでやる。そしてtagcloud-rubyで出力。

これでちゃんと動作してんのかなぁ。
httpとか出てくるのはしかたないのか。メディアとかメーカーとかAmazonアソシエイトじゃん。
とりあえず去年の5月分だけクロール。

(5/6追記)
<span class="hatena-asin-detail-label">タグ内は除く。
2003~2006年の5~6月をクロール。
うーん。何か違うか。
時々再検索してもヒットしない単語がある。
まぁある程度は時勢を反映した単語が出て来ているけれども。
スポンサーサイト

トラックバック

http://worris.blog61.fc2.com/tb.php/65-dbc9ca43

この記事にトラックバックする(FC2ブログユーザー)

«  | HOME |  »

移転しました。

ブログ引っ越しました。
無用の科学あるいは錬金術

 

株価情報

 

最近の記事

最近のコメント

 

最近のトラックバック

月別アーカイブ

カテゴリー

RSSフィード

ブログ内検索

 

なかのひと

 

ヘビーローテーション

 

 

リンク

広告

 

 

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。