2007-05

Latest Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

アマゾンハック

昨日見つけたアマゾンハック「ぼくばな1号」という本がAmazon.co.jpに出ている。著者名が「ぼくが作ったった」だったりイメージが出鱈目だったり、はまちやさんのような遊び心にあふれたハックである。
どうなっているのかな、と思って調べてみると、検索にもひっかかるのでXSSの類ではないことが分かる。大阪屋書協のデータベースには登録されていない。Amazon.co.jpに直接登録されている。
そしてISBNが9784862390356(4-86239-035-8)というのは、出版社記号86239はボイジャー
ボイジャーというとT-Timeで電子書籍をやっているところだ。で、そのボイジャーがドットプレスというオンデマンドで自費出版なサービスをやっている。ここを読むとISBN採番すると書いてある。
つまり自費出版でISBNを取っている。この本なんかと同じ。また日販へ持ち込めれば登録もされる。Amazonへの登録もISBNがあれば可能だろう。e託販売サービスを使った場合、在庫なしで予約受付というのが可能とは思えないが、ボイジャーの協力があるのか交渉次第なのか。
(5/28追記:e託販売サービスで予約商品も出品可能だ。)

ええとつまり、ハックには違いないが、はまちちゃんのようなハックとは違う。本は、既に実在する。内容は明らかにされていない。予約している人がいて売買が成立する可能性がある。
その後、実物の写真が出ているし、コメント欄でほぼ種明かしに近い発言もある。
たとえISBNを取っていても、在庫がなかったり内容も確認できないとリアル書店では扱いづらい。素直に理想書店でオンデマンド販売していたのではなかなか部数は見込めないだろう。そういった意味では面白い試みである。しかし、目標部数に達しないので刷りません/予約キャンセル、となってしまったら、そして追随が可能だとしたら、Amazonが低コスト低投機性出版活動の場≒復刊ドットコムたのみこむになってしまうような。Amazonはそれでいいのかな。

id:kotorikotorikoさんといえば、少し前に人力検索はてなでイレギュラーだけど回答をした。下調べだったのか何だったのか不明だけど、ここはひとつ予約受付状況を公開してもらって、AmazonRankViewerの推移と比較してランキング基準が明らかにできると嬉しい。

スポンサーサイト

CAPTCHAで偶然英単語

チンパンジーにタイプライターを叩かせるといつかはハムレットを書く(無限の猿定理)とかよく言われるが、CAPTCHAで意味のある単語が表示される確率はどんなものだろうか。
CAPTCHA

GoogleのCAPTCHAはぱっと見た感じ(Gmailへの登録を何回もやろうとすると怒られた)6~8文字っぽい。
cat /usr/share/dict/words | ruby -ne 'print $_ if 6<$_.size && $_.size<10' | wc #=>17108
17108/(26^6+26^7+26^8)=7.87777965*10^-8
0.000008%か。10,000,000回に1回以下。すっげー。
と思ったけど、どうもGoogle様のCAPTCHAは数字も出てこないし母音と子音を調節して配しているように見えるので、実際はもっと確率が高そうだ。

Mail2Feed - メールからRSSを作る

Googleニュースがフィードされていないので、GoogleアラートをRSSで読もうと思い、メールをRSSに変換する方法はないかと探したら、Mail2RSSというのがあったけど、不安定だし日本語が通らない。
そこで作った。
mail2feed+hogehoge@gmail.comにメールを送るとhttp://worris3.sakura.ne.jp/mail2feed/hogehoge.xmlにRSSが作られる。
調べてみるとRSS2.0とAtomにはURLが必須ではないので、RSS2.0を作ることにした。

(5/26追記)
ところで、MODIPHIの意味が分からない。そもそもフィードがどこにあるのか見つけられない。みらの氏によると「HTMLが存在しなくてカテゴリごとにRSS2.0を吐けばmodiphi」ということらしいのでこれでOKじゃないか。
まぁ確かにブログでカテゴリ別のRSSは欲しいけどね。MT使わないでブログサービスでできるところはあるのかなぁ、というかそれが標準であって欲しい。

閑話休題。
文中のURLはリンクを付けるようにしたけど、descriptionにタグ付きで書くのは正しいよな。
ところが、Googleアラートには+の入ったメールアドレスが登録できないと来た。
他に類似のものはないかとフレッシュアイなどを試してみたが内容が今いち。と思っていたらGoogleニュース用RSSジェネレータというのを見つけた。しかしLDRで読むと既読が未読になったりエントリが増殖したりする。結局スマートに読めていない・・・。

(10/18追記)
+hogehogeがない場合、Fromのアドレスの@を.にしたURLに書き込むようにした。

Amazon Rank Viewer障害 「Fatal error 'No current thread.」

Amazon Rank Viewerだが、17日くらいから巡回に失敗している。
気付いてちょこちょこと修正してみたのだが、毎回失敗する。
途中で

Fatal error 'No current thread.
' at line 323 in file /usr/src/lib/libpthread/thread/thr_sig.c (errno = 0)
Fatal error 'No current thread.
' at line 323 in file /usr/src/lib/libpthread/thread/thr_sig.c (errno = 0)
Fatal error 'No current thread.
' at line 323 in file /usr/src/lib/libpthread/thread/thr_sig.c (errno = 0)
Killed


となって止まってしまう。
Rubyのスレッドじゃない。FreeBSDの。
ぐぐっても情報がほとんどない。似た話でlinuxthreadにすると直ったなんて話があるが手が出ないし。
クロールするISBNが増えすぎたせいか? ちゃちな作りであるのは確かなんだけども。

苦肉の策で、クロール対象一覧をリセット。ご勘弁。
過去のランクデータは残る。クロールは12時間ごとにする。1ヶ月以上閲覧されない商品はクロール対象から外すコードも入れた。

あの日はどんな日だった?

[mixi] キーワードランキングを見て、前からやりたいと思っていたことを思い出した。つまり、日記(ブログ)を日付で結ぶというもの。紙の日記帳で5年日記だの10年日記だのがあるけど、あの感じで他の人の日記と見比べることができるもの。
どういうインターフェースがいいのか分からないけど、とりあえず手を動かした。

A Day in Hatena Diary

まず、Yahoo!検索ウェブサービスで、site:d.hatena.ne.jpでYYYYMMDDを検索。inurl:YYYYMMDDならそのページを見に行く(Yahoo! APIではinurlができない。さらに1000件しか取れない)。<!-- google_ad_section_start -->から<!-- google_ad_section_end -->の間を本文として、タグを除いてMeCabにかけ、固有名詞と一般名詞を取り出す。MeCabをさくらにインストールするのが面倒なので、ここまでローカルでやる。そしてtagcloud-rubyで出力。

これでちゃんと動作してんのかなぁ。
httpとか出てくるのはしかたないのか。メディアとかメーカーとかAmazonアソシエイトじゃん。
とりあえず去年の5月分だけクロール。

(5/6追記)
<span class="hatena-asin-detail-label">タグ内は除く。
2003~2006年の5~6月をクロール。
うーん。何か違うか。
時々再検索してもヒットしない単語がある。
まぁある程度は時勢を反映した単語が出て来ているけれども。

«  | HOME |  »

移転しました。

ブログ引っ越しました。
無用の科学あるいは錬金術

 

株価情報

 

最近の記事

最近のコメント

 

最近のトラックバック

月別アーカイブ

カテゴリー

RSSフィード

ブログ内検索

 

なかのひと

 

ヘビーローテーション

 

 

リンク

広告

 

 

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。