2010年3月18日木曜日

MeCab,MeCab-ipadic,php_mecabインストールメモ [PHP][形態素解析][MeCab]

下記サイトよりmecabと辞書になるmecab-ipadicをダウンロード。

また下記サイトよりmecabをphpより実行する拡張モジュール、php_mecabをダウンロード。

・mecabのインストール

# cd mecab-0.98
# ./configure
# make
# make install

・辞書をインストール

# cd mecab-ipadic-2.7.0-20070801
# ./configure
# make
# make install


・試しに実行
# mecab
今日は天気がありまりよくないですね。
今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
天気 名詞,一般,*,*,*,*,天気,テンキ,テンキ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
あり 動詞,自立,*,*,五段・ラ行,連用形,ある,アリ,アリ
まり 名詞,一般,*,*,*,*,まり,マリ,マリ
よく 形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,よい,ヨク,ヨク
ない 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ
。 記号,句点,*,*,*,*,。,。,。
EOS

おお。インストールされている。


次にユーザ辞書の追加。
ユーザ辞書を適当なディレクトリに作成して辞書をコンパイル、辞書のMecabへの認識を行う。
ユーザ辞書は所定のフォーマットにてCSV形式で作成する。
--フォーマット--
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
--------------

・辞書の作成
# touch /home/username/user.dic
# vi /home/username/user.dic
工藤,1223,1223,6058,名詞,固有名詞,人名,名,*,*,くどう,クドウ,クドウ

・辞書のmecabへの登録
# vi /usr/local/etc/mecabrc
userdic = /home/username/user.dic

・コンパイル
# /usr/local/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/ipadic -u /home/username/user.dic -f utf8 -t utf8 /home/username/user.dic


次にphp_mecabをインストール。
# cd php_mecab-0.3.0
# phpize
# ./configure --with-php-config=/usr/local/bin/php-config --with-mecab=/usr/local/bin/mecab-config
# make
# make install
Installing shared extensions: /usr/local/lib/php/extensions/no-debug-non-zts-20060613/

ここにインストールされたのかな。
# ls -al /usr/local/lib/php/extensions/no-debug-non-zts-20060613/
合計 136
drwxr-xr-x 2 root root 4096 3月 17 17:07 .
drwxr-xr-x 3 root root 4096 3月 17 17:07 ..
-rwxr-xr-x 1 root root 111579 3月 17 17:07 mecab.so
あった。

以下のようにphp.iniを編集しapache再起動。
# vi php.ini
extension_dir=/usr/local/lib/php/extensions/no-debug-non-zts-20060613/
extension=mecab.so
# apachectl restart
本当は今回追加したextension_dirはシンボリックリンクとかにした方がいいんだろう。

おしまい。



[ 参考 ]

0 件のコメント:

コメントを投稿