Pixel Pedals of Tomakomai

北海道苫小牧市出身の初老の日常

TermExtract

TermExtract chasenで使ってみる。サンプルスクリプトを走らせると、いい感じで用語を拾って来る。こりゃー便利。



ならば、とhtmlからタグとJavaScriptを除いて食わせてみたんだが、これは失敗。ナビゲーション用のリンクや、「LINK」「COMMENT」等の見出し語のスコアが高過ぎて、肝心の本文がうまく取れない。本文だけを探し出して食わせる工夫が必要だなあ。