北海道苫小牧市出身の初老PGが書くブログ

永遠のプログラマを夢見る、苫小牧市出身のおじさんのちらしの裏

(いまさら)タグクラウド

タグクラウドしたことなかったので、やってみました。


作ったのはURLを入力すると、そのURLに対するページを分析してタグクラウド化するCGIです。利用したのは以下のモジュール。

  • LWP::UserAgent
  • HTML::ContentExtractor
  • Text::MeCab
  • WWW::CloudCreator


ソースは(あまりにひどくて)見せられないので、スクリーンショットでも載せときます。このスクリーンショットは、某閉鎖したはてなダイアリを分析したときのものです。



以下、課題っぽいこと。

  • MeCabで品詞を判定する方法がわからず*1
  • MeCabを生で使ってるので"キーワード"の抽出精度が低い*2
  • 単純にカウントしてるので、タイトル等で頻出する語のスコアが高くなり過ぎる


WWW::CloudCreator入れるのに、Test系のモジュールを大量に入れさせられました。最近CPAN使ってなかったからかも。

*1:しゃあないから$node->featureにqr/名詞/ってしてます

*2:品詞と長さと文字種辺りをチェックしてますがイマイチ。使うとするとTermExtractになるのかなあ?