TermExtract をchasenで使ってみる。サンプルスクリプトを走らせると、いい感じで用語を拾って来る。こりゃー便利。
ならば、とhtmlからタグとJavaScriptを除いて食わせてみたんだが、これは失敗。ナビゲーション用のリンクや、「LINK」「COMMENT」等の見出し語のスコアが高過ぎて、肝心の本文がうまく取れない。本文だけを探し出して食わせる工夫が必要だなあ。
TermExtract をchasenで使ってみる。サンプルスクリプトを走らせると、いい感じで用語を拾って来る。こりゃー便利。
ならば、とhtmlからタグとJavaScriptを除いて食わせてみたんだが、これは失敗。ナビゲーション用のリンクや、「LINK」「COMMENT」等の見出し語のスコアが高過ぎて、肝心の本文がうまく取れない。本文だけを探し出して食わせる工夫が必要だなあ。