遊ぶために茶筌をインストールした。手順はほぼドキュメントにある通りだよ。
- darts-0.2.tar.gzを頂いてきて、./configure; make; make check; make install;
- chasen-2.3.3.tar.gzを頂いてきて、./configure; make; make check; make install
- ipadic-2.7.0.tar.gzを頂いてきて、./configure; make; make check; make install;
- chasen-2.3.3.tar.gzに入ってるperlディレクトリで、Makefile.PLを編集
(リンカをC++の物を使うために、'LD' => "c++" を追加)
後はperl Makefile.PL; make; make install;
で、テスト代わりにセンスのかけらもないスクリプトを作成。
#!/usr/local/bin/perl
use Text::ChaSen qw(getopt_argv sparse_tostr);
use LWP::Simple;
use Jcode;
my $html = get('http://hiratara.dyndns.org/movabletype_days/archives/001278.html');
$html = Jcode->new($html, 'utf8')->euc();
$html =~ s/<[^>]+>//gs;$res = getopt_argv('chasen-perl', '-j', '-F', "%m\n");
$str = sparse_tostr($html);
print $str;【結果(一部だけ抜粋)】
注文
し
た
物
が
揃う
と
、
バニラ
アイス
の
浮い
て
いる
クリーム
ソーダ
に
さらに
バニラ
アイス
を
2
個
投入
し
た
。
おおー、きちんと動いてるみたい。こいつは読みがなやどの品詞のレベルかまでを判定できるので、考えれば色んな使い道がありそう。もちろん辞書に入っている単語だけだけど、その辞書も自分で定義可能っぽい(テストしてないけど)。