北海道苫小牧市出身の初老PGが書くブログ

永遠のプログラマを夢見る、苫小牧市出身のおじさんのちらしの裏

HTML::ContentExtractor

naoyaさんとこで見かけた、HTMLからノイズを取り去って本文を取り出してくれるモジュール。常々から、Permalinkからエントリの中身だけをきれいに抽出する上手い方法はないかなあと思ってたのですが、これが役に立ちそうです。

HTML::ContentExtractor

This module is used to reduce the noise content in web pages and thus identify the content rich regions.


ところで、extractの引き数に$urlが入るのはなぜか気になるところ。もしかするとベースURLから各要素の妥当性をチェックするようなすごいことをしてるのかと思ったら、そうではないみたいです。ソースを見た感じでは、 foo.html#hoge みたいなURLに対応するための引き数みたいです。ただし、まだ「<a id="hoge">」の形の指定しか駄目みたいです。*1


ちなみに、本日の段階のソースでテストが通ってなかったので、force installしました。テストの記述ミスっぽい感じです。




おまけ。Lingua::JA::Summarize::Extract は日本語の長文を形態素解析して、指定した長さの概要文を作ってくれるモジュールです。たぶん、一番重要そうな文章を抜き出してくれるんだと思います(ロジック見てないけど)。

*1:aタグのname属性と、aタグ以外のid属性には未対応