やっと理解した.
原文ママ引用.
で後者の正規表現のマッチがよくわからんという部分は、mecabのパース$m->parseToNode($word)でutf8フラグがたたないことが原因だった。わかってみればそりゃそうだと思えるが。
だから,decodeすればいいんだ.
ということは?
TermExtractが動かないのも同じ原因かな?
眠いから今日(日付は替わっているが)はもうやらないけど・・・
文字コードをこんなに真面目に調べたの・・・きっと初めて.
日本語ってめんどくさいね.