パスワードを忘れた? アカウント作成
9024663 story
インターネット

国立情報学研究所、ニコニコ動画に投稿されたコメントから抽出したデータの提供を開始 23

ストーリー by hylom
8とwが大量に含まれていそう 部門より
あるAnonymous Coward 曰く、

国立情報学研究所(NII)が24日、ドワンゴとの協力の下、「ニコニコ動画コメント等データ」の提供を開始した(NIIのニュース)。

提供されるのは昨年11月初旬までに投稿された約830万件の動画のメタデータ(タイトルおよび説明文、タグ、投稿日時、再生数等)約12GBと、それに対するコメントデータ(コメント本文、投稿日時、コメント位置等)約300GB。動画データや個人を特定するユーザーIDは含まれない。研究目的であれば誰でも利用できるとのこと。

かなり偏ったデータであるとは思われるが、この規模のまとまった投稿データはなかなか興味深いのではないだろうか。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 投稿に対する付加データ(規約違反だとかNGワードの対象にしたものとか)があれば面白いかも。
    性別や年齢くらいあるなら簡単に傾向分析とか出来そう。

  • by skapontan (35455) on 2013年05月29日 13時34分 (#2390193) 日記

    あのゴミコメントの山を何に使うかは想像できないけど、
    とにかくだれでも使えるよう公開するという姿勢は好感。

    • wwww
      wwwwwwwwwwww
      wwwwwwww
      wwwwwwwwww
      wwwwww

      ↑得られるデータがこれだけだと、何に使うか想像できない。

      00:02 これは期待
      00:05 わくわく
      00:05 Twitterから来ました
        :
      01:15 wwww
      01:16 wwwwwwwwwwww
      01:16 wwwwwwww
      01:16 wwwwwwwwww
      01:17 wwwwww
        :
      01:30 GJ
      01:30 GJでした
      01:31 とりあえずマイリス

      ↑うまく分析すれば何かに活用できるかも!

      # まあ、やっぱり私には想像できないのですが。

      親コメント
      • 今回のはコメントだけじゃなくてタグとか被ブックマーク数なんかも有るみたいですから色々使えるのかもしれませんね。

        こちらに結構まとってますけど
        http://staff.aist.go.jp/masahiro.hamasaki/niconico.html [aist.go.jp]

        サッカーとかで「おおおおおおお」とかが多かったら例えばその時間は何かの事象が起きているシーンだと判別するとか、女性キャラのタグが付いてて、「ふぅ…」とかが多く出てる所は微エロ系のギャグのオチの部分であるとか動画の状況の分析とかもあるみたいです。

        タグの派生の仕方からコンテンツの伝搬の傾向を分析とかありましたね。
        ニコニコ学会βで何回か公開されていました。

        親コメント
      • by Anonymous Coward on 2013年05月29日 14時14分 (#2390228)

        表示位置は上中下以外に、詳しくは知らないけど、座標も指定できるっぽい。
        動画内の物体(顔とか)の位置に合わせてコメントで落書きしてる人がいた気がする。
        生放送でもAAでアニメーションさせたりしてる人いるし。

        「投稿日時、コメント位置」だから表示座標じゃないかなぁ。

        親コメント
        • by Anonymous Coward

          「投稿日時」はまさしく投稿された日時、「コメント位置」は動画の
          タイムスケールに対するコメントの位置ですね、おそらく。

          座標指定みたいに見えるのは上あるいは下にコメントするコマンドで、
          縦方向はダミーを入れることによって何段目になるかで調整、
          横方向は基本センタリングなんで同じくダミーのスペースを入れることで
          調整しているんじゃなかったかな
          #もっとノウハウがあるかもしれないけど、これ以上はわからん

          生放送のほうはよく知らない(苦笑)

      • by Anonymous Coward

        ちょうど先日発表されていたのですが、
        いわゆる「釣り動画」は最初、または動画中盤の一瞬だけにコメントが集中する…など明らかに
        通常の動画と違うコメントのつきかたの特徴があり、コメントのパターンを解析すれば精度高く判別が可能だとか。

        個別で見れば「ゴミみたいなデータ」のように見えても、数がまとまれば解析次第でいろいろな情報が得られるし、
        そういった研究をするためには、誰でも・再現可能な(同じデータセットが入手可能な)・ダミーではない本物の・そして大量の
        データセットが配布されるというのは非常に意味のあることなのです。

        • なるほど。

          この手の分析はTwitterなどでも研究されていて、たとえばコメントに含まれる語から(機械的に)ネガティブかポジティブを判断して評価、なんてことも行われているようです。

          Nico動の場合、まずコメント対象が動画なので、必然的に「コメントされたのは動画のどのタイミングか」を動画内容とセットで分析しないといけない、という難しさまでは容易に想像できます。
          それに加えて厄介なのが、動画の系統によっては、コメントに特殊かつローカルルールが多い(たとえば「⑨」とか、特定のキャラに対して緑字で「ツマンネ」とか)傾向があるところ。各々の動画のコメントについて個別に(人力で)分析・評価するだけなら難しくはないでしょうけど、高精度の分析を機械化・自動化するにはいろいろとノウハウが必要そう…。

          親コメント
        • by Anonymous Coward

          意味はあることなのかもしれないが
          意味を理解することは大変だね。

    • by Anonymous Coward

      弾幕とかAAとか、そのタイミングでないと意味ないとか(動画を見ないと意味不明なコメント)、
      いくつかのコメントを合わせてイメージとして見ないと意味ないとか(テキストデータとしては無意味)、
      そういうコメントはどう扱うんだろうな。

      時間データもあるならAAは何とかなるか。
      動画内容とリンクしてるコメントは大半がゴミになりそう。
      「あっ」とか「ふぅ・・・」とか「888888」とか。

      • by lamvision (16580) on 2013年05月29日 15時01分 (#2390268)

        キマシ
        とかコメントあっても知らなきゃなんのこっちゃだろうなぁw

        最近だと
        おこなの?
        こっちはまだわかるか

        親コメント
        • by Anonymous Coward

          機械学習にとってスラングというものは知ってる・わかるということでなく
          単に「ある時期以降に頻出しはじめる字句」と見えるだけじゃないですかね。

          そもそもニコ厨のコメントやレスそのものが
          流行りのフレーズを脊髄反射で垂れ流してるだけの
          「ゆらぎのあるタグの羅列」でしかないのですから、
          人口無能による精巧なサクラなんかも簡単に作れそうですね。
          ニコニコ動画のコメントでチューリングテストするのも面白いかも。

      • by Anonymous Coward on 2013年05月29日 15時12分 (#2390280)

        >動画内容とリンクしてるコメントは大半がゴミになりそう。
        >「あっ」とか「ふぅ・・・」とか「888888」とか。

        なんでこれが「ゴミになりそう」と思えるのかさっぱりわからない。
        そういったコメントの傾向(パターンや割合)、コメント数と再生数・マイリスト数の相関を取ってみるとか
        日時から履歴を作って時代とともに評価(コメントの傾向)が変化した動画を検出してみるとか
        いろいろできること、やると面白そうな研究はあると思うんですが。

        あくまでもこれは「まとまった分量のデータがある」ことがポイントなので、コメント単体の
        意味解析だけにしか視線を向けないのはずいぶん外してる感があります。

        親コメント
      • by Anonymous Coward

        元動画は消えたわけじゃないんだから、
        例えば気になるコメントが動画の何処で書かれたかを知ることは出来るでしょう。
        やっちゃいかん事になってるけど、DLして動画を解析すればデータと静止画像のヒモ付も可能。

        それをしてどうするかは、やっぱわからないんですけどね。

    • by Anonymous Coward

      都市鉱山的ではあるね
      ゴミの山から貴金属を探す
      ・・・
      『生ゴミ』から貴金属を探しても出てくるかは疑問だが

      • by Anonymous Coward

        素直に『データマイニング』でいいじゃないですか。

    • by Anonymous Coward

      一般投稿動画ではなく企業が提供している動画においては
      視聴者の反応を加工しやすいデータで取得できるのは結構有用性がありそう
      ・実験的に組み入れたあのシーンの効果はどうだったのか?
      ・広告動画に対する反応
      とか

  • by Anonymous Coward on 2013年05月29日 13時50分 (#2390213)

    細工してるのかな?

    • by Anonymous Coward

      NGワードは普通にありますよ、ってそういう意味じゃない?

  • by Anonymous Coward on 2013年05月29日 14時21分 (#2390235)

    888888888888888888888

    #なんか投稿フィルタにひっかかったみたい

  • by Anonymous Coward on 2013年05月29日 15時05分 (#2390273)

    もし人名のコメント数=人気と定義されたなら、
    プロ野球界のスター中のスターは、楽天の鉄平選手ということになるだろう。

    • by Anonymous Coward

      TDN=多田野とカウントしていいならそっちの方が多いかも

typodupeerror

私はプログラマです。1040 formに私の職業としてそう書いています -- Ken Thompson

読み込み中...