Pixel Pedals of Tomakomai

北海道苫小牧市出身の初老の日常

単語ランキング

blogで使ってる言葉ベスト100を作ってみた。・・・なんか"彼女"がベスト5に入ってるし。我ながら見事な溺愛っぷり(笑)。"目"が上位なのも泣ける・・・ドライアイめ。"バグ"、"体調"、"風邪"、"口内炎"もランクイン。おめでとう!(ぇ



スクリプトとしては、MT.pmにコンフィグ食わせて、MT::Entry->loadでエントリ全部とってから、タグをはずしてJcodeでeucに変換してそのままChaSenへGo。実行時間も10秒以内とかなり良好。エラいぞChaSen



・・・と言いたいとこだが、この方法だと英単語が拾えない。全部アルファベットに分解されてしまって、記号として処理される。これを回避するのは英単語辞書を作るしかないのかなあ?



あ、この問題はググったら出てきた。.chasenrcに、(連結品詞 ((記号 アルファベット)))、って、eucで書くといいらしい。集計し直したら"風邪"と"口内炎"が消えちゃった、ちぇ。



さて、問題は解決したけど、これでもあまり精度が高くないね。集計対象にするかどうかを判定するロジックを考えなきゃ駄目みたい。ChaSenが返して来る品詞と、単語に使われてる文字列の長さ・種類で判定することになるかな。参考としては、ChaSen 品詞体系(by 新山さん)が役に立ちそう。

1位621
2位339
3位これ223
4位彼女210
5位178
6位quot143
7位142
8位なん115
9位それ99
10位91
11位DDR86
12位85
12位gt85
14位自分84
15位ここ81
16位perl76
17位とこ72
18位69
19位68
20位から66
21位日記63
22位会社59
22位59
24位i55
25位久しぶり54
26位感じ51
26位51
28位48
29位ファイル47
29位47
29位ソース47
32位文字46
33位43
34位X42
35位ゲーム41
35位コード41
35位41
38位40
38位40
40位39
40位ケータイ39
42位仕様38
42位C38
44位37
44位サーバ37
46位36
46位バグ36
46位java36
46位ラーメン36
50位35
50位35
52位m34
52位インストール34
52位電車34
55位33
56位32
56位32
58位プレイ31
58位カード31
58位linux31
58位どこ31
58位ダンレボ31
63位30
63位帰り30
63位環境30
66位29
66位音楽29
68位そこ28
68位世界28
68位ページ28
68位28
68位28
68位体調28
68位最後28
75位27
75位スクリプト27
75位写真27
78位26
78位サイト26
78位print26
78位n26
78位ポップ26
78位26
84位こいつ25
84位T25
86位24
86位調子24
86位24
86位状態24
90位原因23
90位うち23
90位lt23
93位22
93位22
93位use22
93位22
93位F22
93位SDL22
99位MAX21
99位A21
99位コンパイル21
99位部屋21
99位make21
99位21
99位hiratara21
99位アプリ21
99位スピッツ21
99位うさぎ21
99位コース21
99位ダブル21
99位情報21
99位日本語21