2009-01-01から1ヶ月間の記事一覧

TopHatenar部門別ランキングの順位変動

ここ数日ほど、EDGE Datasetsを活用して、今までTopHatenarで拾いきれていなかった過去のはてなダイアリー記事(2008年初頭ごろまでに書かれたブックマーク数中堅クラスのエントリー)をクロールしました。この結果として、部門別ランキングが一部変動しまし…

ニコニコ動画データ分析研究発表会: タグの可視化

ニコニコ動画データ解析発表会でニコニコ大百科の宣伝を行いました(発表資料もあるよ!) - グニャラくんのグニャグニャ備忘録@はてなニコニコ動画で使われているタグのクラスタリング結果がHatenarMapsと同じ手法で可視化されていて、興味深いです。デンド…

K-means法によるクラスタリングのスマートな初期値選択を行うK-means++

K-means法は、入力データからK個のランダムな個体を初期クラスタの中心として選択し、以降、クラスタの重心を移動させるステップを繰り返すことでクラスタリングを行う非階層的手法です。K-means法はシンプルで高速ですが、初期値依存が大きいのが弱点で、不…

TopHatenarの部門別ランキングにエントリー表示機能を追加しました

TopHatenarの部門別ランキングで、「どの記事がどれだけブックマークタグを集めたのか」が分かるように、内訳表示機能を追加しました。以下のように、個別のエントリーとタグ数(pts)を確認することができます。

RDBMSをKey-Value Storageとして使う場合のパフォーマンス計測(H2, MySQL編)

Tokyo Cabinet, QDBM, Lux IOなど、DBM同士のパフォーマンス比較はWebで良く見かけるのですが、MySQLのような普通のRDBMSをKey-Value Storage的に使用した場合、DBMと比べてどれくらい差が付くものなのかイメージが湧かなかったので、実際に計測してみました…

2008年の振り返りと2009年の抱負

明けましておめでとうございます。僕の2008年を振り返ると、その前年の1981s忘年会で刺激を受けて、自分も面白いアウトプットを出したいと思ったことから始まった気がします。TopHatenarを作ったのが5月ですが、その基礎になるデータ自体は、何かの材料にな…