Algorithm::NaiveBayesで2ch系まとめサイトをカテゴライズしてみた - 岩手からこんにちは ☆彡 perl とかウェブ系なブログ

2ch系まとめサイトのアンテナ？的な新着サイトは結構あるんですが、勉強もかねてAlgorithm::NaiveBayesでベイズ使ってカテゴライズしてみたメモ。

Algorithm::NaiveBayes
http://search.cpan.org/~kwilliams/Algorithm-NaiveBayes-0.04/lib/Algorithm/NaiveBayes.pm

目標はてぶみたいに自動でカテゴリ分けしたい

参考に・・

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよhttp://d.hatena.ne.jp/tkng/20081217/1229475900

上のサイトをみるとはてなではComplement Naive Bayesがつかわれてるっぽいです。

ここではAlgorithm::NaiveBayes　単純ベイズを使いました。
カテゴリ予測までの流れ

カテゴリに属すると思われるページを選定
選ばれたページから特徴語を抽出　Lingua::JA::OkapiBM25を使いました。
Algorithm::NaiveBayesにadd_instanceでカテゴリに属性データを追加
Algorithm::NaiveBayesに学習させる
ページがどのカテゴリーに属するかを予測する predict

カテゴリーを用意

今回は

政治・経済、スポーツ、科学・学問、グルメ・レシピ、映画・音楽、コンピュータ・IT、ゲーム、アニメ・漫画、アイドル・芸能人、アダルト

を用意しました。

そしてカテゴリーに属するサイトデータははてなブックマークのランキングや人気データを利用しました。

たとえば政治・経済の場合は http://b.hatena.ne.jp/ranking/monthly/201208/economics にのってるページを集めるといった感じで、各カテゴリにふさわしいと思われるサイトデータを集めます。

あとめたサイトの特徴語を抽出します。
抽出にはLingua::JA::OkapiBM25を利用しました。

my $page_text = ページタイトル . ページ概要などなど;
my $okapi =  Lingua::JA::OkapiBM25->new;
my @list  = $okapi->bm25(encode("utf8",$page_text))->list(50);

上記でLingua::JA::OkapiBM25が５０個の特徴語を抽出してくれます。
Lingua::JA::OkapiBM25については
http://d.hatena.ne.jp/download_takeshi/20091206/1260130230
が詳しいです。（というか作者さん）

抽出したデータをAlgorithm::NaiveBayesにadd_instanceする

my $bayes;
my $bayes_file = 'algorithm_naivebayes.dat';
if( -f $bayes_file){
    $bayes = Algorithm::NaiveBayes->restore_state($bayes_file);
}
else{
    $bayes = Algorithm::NaiveBayes->new( purge => 0 );
}

for $さいと ( @さいと){
  my %pagedata{
    encode("utf8",$keyword->keyword)} => encode("utf8",$page_keyword->score);
  };
  $bayes->add_instance(
    attributes => {%pagedata},
    label => encode("utf8",'カテゴリ名'),
  );
}

bayes->train;
my $save = $bayes->save_state($bayse_file);

各カテゴリには約１５００サイト程度にしています。　カテゴリに属するサイトの数はおなじぐらいになるようにしています。

最後にページがどのカテゴリに属するか予測してみます。

my $bayes_file = 'algorithm_naivebayes.dat';
if( -f $bayes_file){
    $bayes = Algorithm::NaiveBayes->restore_state($bayes_file);
}
else{
    $bayes = Algorithm::NaiveBayes->new( purge => 0 );
}

my %pagedata{
    'hogehoge' => 1.555,
    'mogemoge' => 1.444',
};
my $result = $bayes->predict( attributes => {%pagedata} );

以上でそのページがどのカテゴリに属するのかの予測ができました。

まとめサイトのデータは、最近2chで、まとめサイトを登録しろ的な事になったようですので、
ニコニコ大百科 http://dic.nicovideo.jp/a/2ch%E9%96%A2%E9%80%A3%E3%81%BE%E3%81%A8%E3%82%81%E3%82%B5%E3%82%A4%E3%83%88%E3%81%AE%E4%B8%80%E8%A6%A7
からサイトを調べています。
それぞれのサイトからrssフィードURLを探し出して、LWP::UserAgentで記事を抽出しています。

そんなこんなして、とりあえずつくってみたのがこちらになります。

めろりん　http://merolin.com

カテゴライズはあってる部分と、それ違うだろ的な感じになっています。
まあなんとなくだけど、それっぽい感じにはなりました。
このままだといけてないので、カテゴリを修正する、ページつくって、手動で修正していく必要があるのかなとおもってます。　いまのところここまで

本当はBM25で抽出した単語の関連語なんかも出した方がいいのだろうとおもいます。
その辺のチューニング的な事もしないとだめだとおもいます。
あとComplement Naive Bayesでやれれば、やってみたいなと思います。

以上メモ。

とりあえず機械学習はたのしい!

目標 はてぶみたいに自動でカテゴリ分けしたい

カテゴリーを用意

目標はてぶみたいに自動でカテゴリ分けしたい