読者です 読者をやめる 読者になる 読者になる

Yahoo 日本語形態素解析Webサービスと Mecab の比較

適当な (今日 feed 経由で収集した Web 上の) 文書 を Yahoo のと Mecab に喰わせてみて、結果が食い違った部分を比較してみた。

surface を配列に入れて、Array::Diff で比較。

特徴がみえるところを (主観的にだけど) 抜き出してみたら、こんな感じになった。

mecab: '[1] [9] [繁華] [街] [従業] [員] [けが]'
yahoo: '[19] [繁華街] [従業員] [がけ]'

mecab: '[お] [怒り] [・] [・] [・] [(´] [・] [ω] [・] [`)] [何] [度] [申し訳] [ない]'
yahoo: '[お怒り] [・・・] [(] [´・ω・`] [)] [何度] [申し訳ない]'

mecab: '[代表] [団] [について] [国務] [長官] [記者] [会見] [として]'
yahoo: '[代表団] [に] [つい] [て] [国務長官] [記者会見] [と] [し] [て]'

mecab: '[に関する] [文部] [科学] [省] [研究] [会] [積極] [的] [進める] [という]'
yahoo: '[に] [関] [する] [文部科学省] [研究会] [積極的] [進め] [る] [と] [いう]'

mecab: '[0] [.] [25] [,&] [mid] [-] [stage] [mega] [-] [deal] [mega] [-] [deal]'
yahoo: '[0.25] [,] [&] [mid-stage] [mega-deal] [mega-deal]'
  • MeCab は連続する全角数字や、"0.25" "4,000" のような表記をバラバラにしてしまう
  • Yahoo は複合語 ([研究][会] vs [研究会]) を重視するみたい
  • Yahoo のほうが辞書の単語が多いんだろうな
    • [´・ω・`] ……こんなのまで登録してあるのか?

mecab は 0.93 + ipadic-2.7.0-20060408 を使用。