SenよりGoSenの方が遅い?
形態素解析エンジンSenを改良したGoSenというライブラリがあります。
Significantly improved text analysis speed
http://itadaki.org/wiki/index.php/GoSen
と書いてあるので、どの程度速くなったのかなと思ってSenと比べてみたんですが、逆にSenより遅いという不思議な結果になりました。
- GoSenの計測方法
- Senの計測方法
- sen-1.2.2.1.zipをダウンロード
- /dicでantを実行し、辞書ファイルを作成
- 上記のbenchmark.SenBenchをSen向けに一部書き換えて実行
実行環境はIntel iMac 2GHz, Java1.5.0です。テキストデータは産經新聞の記事を適当に拾ってきました。
以下が、同一テキストを1000回解析した結果です。
(GoSen) number of files: 1 number of repeats: 1000 number of bytes: 2782 number of chars: 938 total time elapsed: 11648 msec. analysis time: 11648 msec. (Sen) number of files: 1 number of repeats: 1000 number of bytes: 2782 number of chars: 938 total time elapsed: 7921 msec. analysis time: 7920 msec.
GoSenの解析時間がSenの1.5倍程度かかっています。いろいろテキストを変えて試しても同様の結果でした。
何か見落としていることがあるのかな?