2009-01-01から1ヶ月間の記事一覧
ここ数日ほど、EDGE Datasetsを活用して、今までTopHatenarで拾いきれていなかった過去のはてなダイアリー記事(2008年初頭ごろまでに書かれたブックマーク数中堅クラスのエントリー)をクロールしました。この結果として、部門別ランキングが一部変動しまし…
ニコニコ動画データ解析発表会でニコニコ大百科の宣伝を行いました(発表資料もあるよ!) - グニャラくんのグニャグニャ備忘録@はてなニコニコ動画で使われているタグのクラスタリング結果がHatenarMapsと同じ手法で可視化されていて、興味深いです。デンド…
K-means法は、入力データからK個のランダムな個体を初期クラスタの中心として選択し、以降、クラスタの重心を移動させるステップを繰り返すことでクラスタリングを行う非階層的手法です。K-means法はシンプルで高速ですが、初期値依存が大きいのが弱点で、不…
TopHatenarの部門別ランキングで、「どの記事がどれだけブックマークタグを集めたのか」が分かるように、内訳表示機能を追加しました。以下のように、個別のエントリーとタグ数(pts)を確認することができます。
Tokyo Cabinet, QDBM, Lux IOなど、DBM同士のパフォーマンス比較はWebで良く見かけるのですが、MySQLのような普通のRDBMSをKey-Value Storage的に使用した場合、DBMと比べてどれくらい差が付くものなのかイメージが湧かなかったので、実際に計測してみました…
明けましておめでとうございます。僕の2008年を振り返ると、その前年の1981s忘年会で刺激を受けて、自分も面白いアウトプットを出したいと思ったことから始まった気がします。TopHatenarを作ったのが5月ですが、その基礎になるデータ自体は、何かの材料にな…