北海道苫小牧市出身の初老PGが書くブログ

永遠のプログラマを夢見る、苫小牧市出身のおじさんのちらしの裏

perl5.8のUnicodeは嫌い

TermExtractを入れて遊ぼうと思ったら、use encoding関係でハマり。

  1. encodingプラグマはローカルスコープにできない
  2. chompはencodingプラグマの影響を受ける

1. に関しては、


use encoding 'euc-jp';
my $raw_str;
{
no encoding;
$raw_str = "じゃぱにーず";
}
my $utf_str = "ゆーてぃーえふ";

みたいな書き方をしても意図した通りに動かないってこと。

で、1と2のせいで、use encodingを利用したスクリプトからTermExtractを呼ぶと、うまく動かせません。