2010年3月17日水曜日

形態素解析とNgramのさわり[形態素解析][Ngram]

入手可能な日本語の形態素解析エンジン

◆フリーで入手可能なもの(フリーなライセンスで、自由に入手出来る)
  • KAKASI(kanji kana simple inverter)、kakasi.namazu.org
  • MeCab(和布蕪)、mecab.sourceforge.net
  • ChaSen(茶筌)、chasen.naist.jp
    サンプル:http://www.kmusiclife.com/blog/2009/10/chasenphp.html
  • Juman、nlp.kuee.kyoto-u.ac.jp
  • Sen(MeCabのJavaへの移植)、ultimania.org、sen.dev.java.net
  • 日本語形態素解析Webサービス(Yahoo!デベロッパーネットワーク)、developer.yahoo.co.jp

◆市販されているもの
  • Rosette形態素解析システム、Basis Technology
    (Google、Amazon、MSN、楽天などで利用されており、世界で最も利用者の多い形態素解析エンジンであると言える)
  • 形態素解析エンジン言語郎、Zoo Corporation
  • 日本語形態素解析MARIMO ムーター株式会社
    (大規模な辞書を持たず、1000語程度の学習モデルのみで未知語、新語、流行語、略語、話し言葉に対応する。)
⇒from wiki http://ja.wikipedia.org/wiki/形態素解析


使用予定の解析ツール

◆MeCab


おまけ:形態素解析とNgramについて

  • 言語の分割には考え方として形態素解析とNgram方式がある。前者は自然言語的な文節として分割、後者はN文字ごとに分割しインデックスを作成する、という違いがある。
    http://gihyo.jp/dev/serial/01/make-findspot/0006
    http://www.accessup.org/pj/6_B4C9CDFDBFCDA4B5A4F3/20060203.html
  • 何サイトか説明を見てみましたが正確性を志向するのなら形態素解析、ノイズも混ざるが固有名詞や新語・造語などにも対応していくのならNgram方式がよさそう。ということで今回は形態素解析を使用する。

0 件のコメント:

コメントを投稿