適当な (今日 feed 経由で収集した Web 上の) 文書 を Yahoo のと Mecab に喰わせてみて、結果が食い違った部分を比較してみた。
surface を配列に入れて、Array::Diff で比較。
特徴がみえるところを (主観的にだけど) 抜き出してみたら、こんな感じになった。
mecab: '[1] [9] [繁華] [街] [従業] [員] [けが]' yahoo: '[19] [繁華街] [従業員] [がけ]' mecab: '[お] [怒り] [・] [・] [・] [(´] [・] [ω] [・] [`)] [何] [度] [申し訳] [ない]' yahoo: '[お怒り] [・・・] [(] [´・ω・`] [)] [何度] [申し訳ない]' mecab: '[代表] [団] [について] [国務] [長官] [記者] [会見] [として]' yahoo: '[代表団] [に] [つい] [て] [国務長官] [記者会見] [と] [し] [て]' mecab: '[に関する] [文部] [科学] [省] [研究] [会] [積極] [的] [進める] [という]' yahoo: '[に] [関] [する] [文部科学省] [研究会] [積極的] [進め] [る] [と] [いう]' mecab: '[0] [.] [25] [,&] [mid] [-] [stage] [mega] [-] [deal] [mega] [-] [deal]' yahoo: '[0.25] [,] [&] [mid-stage] [mega-deal] [mega-deal]'
- MeCab は連続する全角数字や、"0.25" "4,000" のような表記をバラバラにしてしまう
- Yahoo は複合語 ([研究][会] vs [研究会]) を重視するみたい
- Yahoo のほうが辞書の単語が多いんだろうな
- [´・ω・`] ……こんなのまで登録してあるのか?
mecab は 0.93 + ipadic-2.7.0-20060408 を使用。