あるAnonymous Coward 曰く、12月3日、NTTレゾナントは日本語の形態解析APIをgooラボで公開した(ITmedia、ニュースリリース)。今まではMecabやChaSenといった日本語形態解析エンジンがあったが、技術及びデータベースについてどちらが優れているのだろうか。
類似サービス (スコア:5, 参考になる)
似たようなWebで公開されている形態素解析APIと言うとYahooのデペロッパーネットワーク [yahoo.co.jp]で公開されているものや、MeCabを使えるようにしたMECAPI [chalow.net]なんてのがありますね。
機能的にはどれもあまり変わらないように見える(yahooのが少し高機能?)ので、比較としては未知語の処理とか辞書の収録語数とかってことになるんでしょうかね。
Re: (スコア:0)
こういうのって、辞書が古いと最近のトレンドを分析するのには不適だよね。
「けいおん」読み込ませたら「けい」「おん」とか返されてもね。
ビッグデータのための情報収集 (スコア:4, 興味深い)
機械学習のために、形態素解析サービスという名目にしておいてPOSTされた文章を集めるのが主目的なのでは。
規約にアクセスログ以外での入力情報の扱いについての記述が一切ないのはどうなの?
https://labs.goo.ne.jp/apiterm/ [goo.ne.jp]
形態素分割APIではないのかな? (スコア:1)
1.文字列を最小単位(形態素)に分割する。
2.各形態素を原型に復元する。
3.各形態素に品詞を付与する。
処理なのでねえ。
タイトルの
”形態素解析API:日本語文字列を語句に分割する技術”
の時点で大きく間違っているので、.内容も推して知るべし。
Re:形態素分割APIではないのかな? (スコア:1)
気になったのでリンク先をチェックした所、そもそもこのサービスは
固有名詞とか地名とかを狙って抽出するための仕組みのようですね。
リンク先のサンプルを引用すると、
となっており、動詞、助詞などのたぐいは出力すらされていません。
つまり汎用の形態素解析器ではない。
という通りなんでしょう。例えばYahooがやってるTwitterでの
ポジティブネガティブ判定みたいなのはこのAPIでは難しいだろうと思います。
リアルタイム検索、「つぶやき感情分析」正式版を公開Twitter上の感情をポジティブ、ネガティブで判定 / プレスルーム - ヤフー株式会社 [yahoo.co.jp]
Re:形態素分割APIではないのかな? (スコア:2, 参考になる)
リンク先が悪いんじゃないかな?
固有表現抽出API [goo.ne.jp]
ひらがな化API [goo.ne.jp]
語句類似度算出API [goo.ne.jp]
形態素解析API [goo.ne.jp]
ただ、最後の形態素解析APIでも分かち書きをしてくれるだけで、それぞれの解析結果は返ってこなさそうですね。
NTTレゾナント (スコア:1)
>NTTレゾナント
そういえば、RENAってどこに消えた?
形態解析って何? (スコア:0)
形態素解析なら知ってる。
Re: (スコア:0)
そこはほら
何を比較? (スコア:0, 荒らし)
Mecab [google.com]やChaSen [naist.jp]はローカルにセットアップしてるかうタイプで
件のはオンラインAPIでサーバー型ですよね
Mecabなんかは棒読みちゃん [usamimi.info]などで
一般実績ありますけど
件のは精度を確かめることができません
現時点では実績など使い勝手として
一般の自由度皆無な件のは論外かなと
棒読みちゃんなどのフロントエンドが対応しないと
一般には忘れ去られるだけだと思います
業務用としての利用なら
音声認識を補完する位置づけになるかもだけれど
てわけで中の人とかでないと
評価のしようがなさそうなんですが
何をもって比較すればいいのやら
Re: (スコア:0)
「件の」がゲシュタルト崩壊
新手の情報収集手段ですな (スコア:0)
不注意なユーザから面白い情報が収集できるといいですね(笑)