2008年8月29日金曜日

Linguaでキーワード抽出試し打ち

Lingua::JA::Summarizeでキーワード抽出を試行。(nomoさんのnemolog同名記事)

下記の足りないモジュールはPPMからインストール。
  • HTTP::GHTTP
  • HTML::Strip

次に、cpanから Lingua::JA::Summarize をインストール


Lingua-JA-Summarize-0.08/lib/Lingua/
Lingua-JA-Summarize-0.08/lib/Lingua/JA/
Lingua-JA-Summarize-0.08/lib/Lingua/JA/Summarize/
Lingua-JA-Summarize-0.08/lib/Lingua/JA/Summarize/Meca
Lingua-JA-Summarize-0.08/lib/Lingua/JA/Summarize.pm

‥でインストール完了。

参照記事には21行目に{}のsyntax errorがあるので補って、再試行。



Mecabがバッチファイルとして認識されてないとな。。

ということで、環境変数pathにC:\Program Files\MeCab\bin追記しておけばOK。

C:\Users\hoge>mecab -v
バージョン確認
mecab of 0.96


XAMPPとMecabの設定は後述のリンク先(5×2.info 内記事)。
Mecab用の辞書作成法なども。


ひとまずここはエンコード優先(nemolog記事のソースの該当部なら)
mecab_charset => 'uft8' を
mecab_charset => 'shiftjis' に修正すればOK。


[下記ソースの一部]

#文字コードとか調整、デフォルトの単語の重み設定も
my $s = Lingua::JA::Summarize->new({charset => 'utf8',
mecab_charset => 'shiftjis',
default_cost => 1.5,
singlechar_factor => 0.2
});

#ここで重みつけ
$s->analyze($clean_text);
my @keywords = $s->keywords({threshold => 5,
minwords => 10,
maxwords => 15


以上のような形で、キーワードが設定した情報に沿って列挙される。
次は辞書作りに取り組みたい。。

0 件のコメント:

Blogger Syntax Highliter