« 軽い擦り傷の証拠を隠滅する | メイン | 学園オリンピックが注目される »

Mecabの辞書をUTF-8に [ サーバ運営, ソフト技術 ]

研究絡みで,Mecabの辞書がEUC-JPじゃ都合が悪くなってきたので,UTF-8に変更しました.
やり方はオフィシャルページを参考に.
既にMecabは導入済みなので,辞書の変更だけです.

# wget http://keihanna.dl.sourceforge.jp/mecab/20904/mecab-ipadic-2.7.0-20060707.tar.gz
# tar zxvf mecab-ipadic-2.7.0-20060707.tar.gz
# cd mecab-ipadic-2.7.0-20060707
# ./configure --with-charset=utf8
# make
# make install

簡単だね.
そんで,現在進行中の研究がこれ
未完成だから,見ても何が何だが.
今現在のものは,産経社会からRSSを引っこ抜いて,RSSをパースして,
記事タイトルをMecabに放り投げて,名詞だけ表示してる.
ただそんだけ.
Perlで書いてますよ!PHPじゃないよ!Rubyでもないよ!
いや・・・ただ単に,perlの資料が見つかりやすかったから・・・

進まなかった理由!
UTF-8とEUC-JPであーだこーだ悩まされてた.
スパッとMecabをUTF-8にしてしまうべきだったね.