タグクラウドなアプローチで,研究を進行中.
研究ベースでプログラミングするのは,院に入ってからは初めてです!
プログラムはperlで書いてるので,四苦八苦.
サブルーチン化に何日かかったことか・・・
引数での受け渡しも,戻り値の受け取りもよく分からない.
そもそも,変数と配列はいいとしても,ハッシュ変数ってのがよくわからん.
配列のようなもののようだけど・・・
こんな風に渡して, ($tag) = &rss_parse($file,\%$tag);
こんな風に処理してる. my %tag = %{shift()};
見た目が美しくないから,きっと実装上の不備があるはず.
でも,よくわからない.困った困った.
成果物は一応公開してます.
今は産経新聞の社会面と2chのニュー速とはてなの注目ニュースと朝日新聞のRSSを取得中.
サイクルは30分で,毎時15分と45分.深い意味はなし.
今後はスケジューリングの調整と時間軸でのデータ保管を考えよう.
それからMeCabで名詞を抜き出してるだけなので,不要語のパージが必要.
もしくは,専門用語自動抽出のTermExtractを用いるとか・・・
何か考えないといけないね.
がんばろう.