「東日本大震災ビッグデータワークショップ」に寄せられたデータの桁数

「東日本大震災ビッグデータワークショップ」に寄せられたデータの桁数 44

ストーリー by hylom 2012年11月05日 12時51分
人が生み出すデータのほうがビッグ部門より

9月12日から10月28日にかけて行われた「東日本大震災ビッグデータワークショップ - Project 311 -」では、参加者向けに「東日本大震災発生から１週間の間に実際に発生したデータ」が提供されたそうだ。提供されたデータは、3月11日から1週間の朝日新聞記事データやテレビ放送テキスト、3月11日から1週間のtweetなど。pongchang 曰く、

ビッグデータといっても日本のマスコミの送出量が、メガ単位でギガに遠く及ばないのが、面白く感じた。NHKの記事によると、寄せられたデータは次のとおり。
■朝日新聞：震災後１週間分の本紙掲載記事（１０メガバイト）
■グーグル：震災後１週間分の検索トレンド（データ量は計測せず）
■ＪＣＣ：在京テレビ６局の、震災後１週間分の放送内容の要約書き起こし（１０．８メガバイト）
■ゼンリンデータコム：ＧＰＳ付き携帯電話などで集計した、地域ごとの人口や混雑統計データ。３月８日から１７日まで（１．８ギガバイト）
■ツイッタージャパン：震災後１週間分の全ての日本語ツイート（３２ギガバイト）
■本田技研工業：カーナビを通じた震災後１週間分の車の通行情報（５０メガバイト）
■レスキューナウ：震災後１週間分の鉄道の運行情報やライフライン、被害情報など（８メガバイト）
■ＮＨＫ：震災後２４時間に総合テレビで放送された内容の書き起こしデータ（２メガバイト）
■ウェザーニューズ：３月１１日から４月２９日までに一般から送られた被害やライフライン情報など（１０メガバイト）
■日本気象協会：地震と津波予報、アメダス情報（１．６メガバイト）
■ビットリー社：短縮ＵＲＬのデータ（３．１９ギガバイト）
逆に言えば、ゼンリンが辛うじてギガの桁のデータを扱っているが、他はメガ単位で終わっているということか。ビッグデータといっても、日本の商業利用や応用技術の進展は、まさしく桁違いに終わるのだろうか。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索44コメント Log In/Create an Account

災害時はデータ容量は軽いほうがいい (スコア:2)

by 5121 (13129) on 2012年11月05日 13時26分 (#2266023)

タレこみは日本のマスコミが…なんて言っているけど、
災害が起きたとき、被災者が情報を取得するときには出来るだけ小さいデータの方がいいと思うんだ。
通信インフラも電気も限られているし。
ぱっと見、本当に最低限の情報として、新聞10MB、日本気象協会1.6MBだとすると、1日2MBくらいか。
最悪、電話回線にモデムでもいけそう。
- Re:災害時はデータ容量は軽いほうがいい (スコア:3, すばらしい洞察)
  
  by Anonymous Coward on 2012年11月05日 13時49分 (#2266040)
  
  被災者が被災時に見る情報とその後の解析で使う情報は別物でしょう．常識的に考えて．
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    君は何と戦っているんだ？
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      お前は何を言ってるんだ
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        ここはどこなんだ
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      君こそ何と戦ってるんだ？
      #2266040 は #2266023 に対する「オフトピじゃね？」と言う指摘だろ。たぶん、
- Re:災害時はデータ容量は軽いほうがいい (スコア:1)
  
  by Anonymous Coward on 2012年11月05日 17時52分 (#2266185)
  
  被災地の地元マスコミである河北新報なんて、自前の組版システムが（停電しても自前の
  電源持っていたけど)被災で動かないんで、協定結んでいた新潟日報にデータ転送して
  組版してもらって、翌朝号外を各避難所（津波被災地は無理だけど）に届けていました。
  「河北新報のいちばん長い日」でぐぐって一番まとまってそうな上位エントリ：
  http://finalvent.cocolog-nifty.com/fareastblog/2011/12/post-ba39.html [cocolog-nifty.com]
  転送データは当日のマスコミの中では最小のほうでしょうけど、
  被災地現地ではS/N比が一番大きかったですヨ
  震災の翌朝、被災地民が河北号外ではじめて知った事実：
  ＃私が、被災地民ですた。の、感想です。
  「仙台沿岸が壊滅」
  　当然ながら、NHK仙台等のヘリライブなんて見ていた人はいない。
  　ので、ラジオのデマまがいの情報に判断が込み入っていた。
  ## 荒浜で200から300人の死体、ってのがラジオで流れて恐怖⇒それはでま。
  　河北掲載の写真を見るまで、沿岸を数10cm程度波が浸った程度の被害を想定していた。
  　TV見ていたら壊滅は自明な名取市閖上に、それとわからず歩いて帰ろうとかしていた人がいた
  「原発が爆発」
  　河北号外では一面に出ていたけど、ほんの数カラム程度で、「え？原発が爆発した？」程度の受け止め。
  　東京で菅内閣がそれにかかりっきりでその他地域を考慮してなかったって後で知った。
  マスコミがすべきなのは、「ビッグデータから有用なデータを抽出すること」なんだと思いますですヨ。
  河北の震災当日＋翌日に関しては、評価できる項目ともちょっとがんばりましょうの項目があると思いますですヨ。
  それを「有用なデータを抽出するべし」セクターに、「出力データの多さ」を求めるタレコミ文の趣旨は、おかしいですね。
  それとも、当時の河北新報に、情報垂れ流しの紙面を震災翌日に作れと？
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    いや，ですから#2266040で言われているように災害時に被災者に渡すべき情報と，今回のようなその後のデータ解析で使うデータというのは全く別物でしょう．
    今回寄せられたデータで言えば，Googleの検索トレンドの情報なんかは3.11当日の被災者にとっては全く意味がありません．ですが，後日のビッグデータ解析においては非常に興味深い情報です．
    で，日本企業はその解析で使えそうな情報を渡してくれなかったことをこの記事では嘆いているのだと思いますが．
    例えば朝日新聞でいえば同社ウェブサイトの記事ごとのアクセス傾向はかなり使える情報でしょう．自社のみが持つ情報は戦略的に扱いたいという気持ちもわかりますが（Twitterの日本語ツイートすべてはさすがに大盤振る舞いって感じですが），どんなデータからどんな解析結果が出せるかというのはそれこそ研究者によって違うわけで使えそうなデータは1種類でも多くあった方が有用な情報につながる可能性も高まるわけです．
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      いや，ですから#2266040で言われているように災害時に被災者に渡すべき情報と，今回のようなその後のデータ解析で使うデータというのは全く別物でしょう．
      #2266185) は別に (#2266040) への反対意見ではなく、
      「災害時に被災者に渡すべき情報と，今回のようなその後のデータ解析で使うデータというのは全く別物」
      という事例を示したもののようですが、なんで「いや、ですから・・・・でしょう」？
      議論において出てくる意見ってのは、別にすべてが「直前に出た反対意見」というわけではないですよ？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  目方で語って良いのはバトルテックのみ
ビッグデータの定義は？ (スコア:1)

by nekonyanko (45835) on 2012年11月05日 13時27分 (#2266025)

そもそも論として、一般的なユーザの行動データを大量に集めて意味を見出そうというのがいわゆるビッグデータ論なわけで、マスコミが出すデータが量が少ないというのは当たり前すぎ。マスコミの報道とインターネット上の口コミとの間の関係を調べようとするのなら、リファレンスデータとしてマスコミの資料があった方が良いですしね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  トシちゃんの個人情報はビッグデータに含まれますか？
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ビックカメラから流出するデータはビックデータであってビッグデータではありません。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  GartnerとかIBMの定義を参照すれば、Variety, Velocity, Volumeの３種が特徴的なデータをビッグデータを呼ぶようなので、
  そもそも論として、一般的なユーザの行動データを大量に集めて意味を見出そうというのがいわゆるビッグデータ論なわけで、マスコミが出すデータが量が少ないというのは当たり前すぎ。
  というのはさすがに言い過ぎでしょう。マスコミ含め、官公庁や企業のデータでも、例えば気象系のセンサデータや企業内に蓄積された大量の電子データ等、ビッグデータと呼べるものは色々あります。当然その中にはプレスリリース等も含まれますので、今回は「発生した、かつ公開されたデータ」、と捉えるべきでしょう。
  ユーザの行動データを扱ったものが多いことや、マスコミの資料が重要である点は賛成です。
  日本国内だと個人情報保護法に代表される法規制と、データを保持する企業がリスクを重視するためこういったデータが集まりにくいのが現状です。こういった試みが今後も継続的に行われればいいんですが。
厳選しても大サイズ (スコア:1)

by Anonymous Coward on 2012年11月05日 19時01分 (#2266216)

ちょっと前に東工大で「都心部の気流を1mの解像度でシミュレーション [titech.ac.jp]」という発表をしていますが、このときの演算結果は結構絞って40TB程度と聞きました(そもそも演算に使うためのリスタートデータですら4.6TB)。
※TSUBAME2.0をほぼ丸一日占有する「TSUBAMEグランドチャレンジ大規模計算制度」で実現できたことだそうです。
「データ」の量自体を比較しても意味はない。 (スコア:1)

by renja (12958) on 2012年11月05日 19時59分 (#2266258) 日記

雑談や罵り合いやコピペ拡散などに埋め尽くされたツイッターと、真偽のほどはさておき報道として情報を発信しているマスコミでは、
発生しているデータ量が段違いなのは当たり前でしょう。
データ量だけを根拠に
＞日本の商業利用や応用技術の進展は、まさしく桁違いに終わるのだろうか。
などと言ってるのはFUDでしかありませんね。

--

ψアレゲな事を真面目にやることこそアレゲだと思う。
は？ (スコア:0)

by Anonymous Coward on 2012年11月05日 13時04分 (#2266002)

俺もマスコミは嫌いだけど、恣意的に貶める記事書いて楽しいですか？
いい性格してますね。三流記者に向いてますよ。
文章で10MBはビックデータでしょうよ。
- Re:は？ (スコア:3, すばらしい洞察)
  
  by Sukoya (33993) on 2012年11月05日 13時26分 (#2266024) 日記
  
  ログと記事を比較してサイズの違いを語るのは論外として。
  ビッグデータの定義が不安になるんですが、
  そもそも、ニュースだとかの記事もビッグデータに含まれるんでしょうか？
  どのニュース記事が読まれたとか、どの情報が参照されたとか、そういうアクセスログと合わせてビッグデータかと思っていたのですが……
  
  シェア
  
  親コメント
- Re:は？ (スコア:2)
  
  by kawasaki_z750s (32690) on 2012年11月05日 14時57分 (#2266084)
  
  不特定多数の個人のデータを収集しだすとビッグデータになりますが、
  特定の１社とか、特定分野の複数社くらいの１週間のデータではこんなもんじゃないかと…
  
  シェア
  
  親コメント
- Re:は？ (スコア:2)
  
  by nmaeda (5111) on 2012年11月05日 15時41分 (#2266125)
  
  ビッグデータというのは、ほとんどすべての情報を選別せずに機械的に溜め込んだもの。その中から必要な情報、重要な情報を抽出して記事にまとめたものが例えば、出版物や放送番組になる。
  だから、新聞記事をビッグデータと呼ぶためには、例えば100年分の新聞記事を全部、などという扱い方が必要であって、○×△に関する記事などという風に抽出したものをビッグデータとは呼べないだろう。
  
  シェア
  
  親コメント
  - Re:は？ (スコア:1)
    
    by taka2 (14791) on 2012年11月05日 16時43分 (#2266161) ホームページ日記
    
    > ○×△に関する記事などという風に抽出した
    条件付けが「震災後１週間分の本紙掲載記事」などといった期間指定だけであって、
    その中身に選別がないなら、一種のビッグデータといっていいかと思います。
    できれば、1週間ではなく1ヶ月ぐらいにしておいたほうがいいんじゃないかとは思いますけど、
    ていうか、NHKの「震災後２４時間」というのは短すぎかなぁ…
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      単純な検索でデータを選別するだけの場合、ビッグデータと呼べるのかなぁ？
      数理解析や統計的処理を行うことで、生データにはない役立つ情報を生成可能なデータのことを
      ビッグデータと呼んでるようにも思いますが…。
- Re:は？ (スコア:1)
  
  by Anonymous Coward on 2012年11月05日 13時52分 (#2266044)
  
  昔、小説書きをしていた頃、だいたいテキストデータの1KBが文庫本の厚み1mmに相当するようなイメージでした。
  10KBくらい書けば、だいたい1cmくらいの文庫本になるな・・・みたいな。
  10MBというと、1cmの文庫本が1000冊程度、約10mくらいでしょうか。
  1日3冊として、まるまる1年の暇が全て吸収されてしまいますね。
  そう考えると、我々の住む地球なんて、ほんとうにちっぽけなものです。
  
  シェア
  
  親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    間違った。10KBで1mm、100KBで1cmでした・・。
    100冊程度ですね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  いや、きっと、震災関連TV番組のハイビジョン映像を提供しろという主張なのでしょう
  （それ以外に桁の大きなデータを思いつかない）
- Re: (スコア:0)
  
  by Anonymous Coward
  
  容量に着目するとはなかなか…
  目の付け所がシャープなんですよ、きっと。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  「マスコミのデータは小さい」と言いたいのかどうかさえ微妙なタレコミだと思う。
  > ビッグデータといっても日本のマスコミの送出量が、メガ単位でギガに遠く及ばないのが、面白く感じた。
  （中略）
  > ■ツイッタージャパン：震災後１週間分の全ての日本語ツイート（３２ギガバイト）
  （中略）
  > 逆に言えば、ゼンリンが辛うじてギガの桁のデータを扱っているが、他はメガ単位で終わっている
  マスコミではないゼンリンを敢えてピックアップしているのに、
  ゼンリンの提供データ量を上回った（これまたマスコミではない）Twitterをスルーした意図が不明。
  と言ったモニョモニョを鑑みて、「記者に向いている」と言う感想に同意ｗ
  そもそも、「提供されたデータ」がメガ単位である事がどう面白いのかサッパリ分からない。
  もし、「ギガ単位のデータを何種類も集めたかったのに大多数はメガ単位であった」と言う話であれば、
  そりゃワークショップ事務局の能力不足でしょうよ。
  - Re:は？ (スコア:2)
    
    by nmaeda (5111) on 2012年11月05日 15時35分 (#2266119)
    
    >マスコミではないゼンリンを敢えてピックアップしているのに、
    ゼンリンの出版する、観光案内の類は事実上、雑誌扱いされていると思うが。コンビニでは雑誌と共に並んでいるし、その賞味期間も雑誌同様に短い。
    ちなみに、ゼンリンは、創業時に出版した雑誌に綴じ込みで地図を入れたところ、そちらが好評だったために地図専業に移行した。
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      > ゼンリンの出版する、観光案内の類は事実上、雑誌扱いされていると思うが。
      だから何よ？
      ここで言うてるのは電子地図サービスの「株式会社ゼンリンデータコム」。
      観光案内出してるのはゼンリン本体でしょ。
      > ■ゼンリンデータコム：ＧＰＳ付き携帯電話などで集計した、地域ごとの人口や混雑統計データ。３月８日から１７日まで（１．８ギガバイト）
      「マスコミとしてのデータ」ではないよね。
      まぁ、そもそものタレコミ文が言いたい事のハッキリしない
      「マスコミならなんやねん」「マスコミじゃなかったらどうやねん」なアレなので、
      そこがハッキリしない事には何を言っても「…で？」と言う感じなんだけど、
- Re: (スコア:0)
  
  by Anonymous Coward
  
  別に容量で見なくても、1週間分の新聞記事ってそんなにビッグか？とは思う。
  でも集めたデータ全体がビッグであれば、個別の容量なんて大した問題じゃないはずだが。
- おそらく裏があるに違いない (スコア:0)
  
  by Anonymous Coward
  
  スラドの震災タレコミの記事がKB単位なのを隠すために、意図的にマスコミを揶揄しているとか。
- 昭和の亡霊 (スコア:0)
  
  by Anonymous Coward
  
  ビックデータは正義だなんて思っているのは、
  ♪大きいことはいいことだ～って山本直純でも歌っていればいいんだよ
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ボールペンメーカーの方ですか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  ニューヨークタイムズ1週間分の情報は、シェークスピアの時代（17世紀）の一生分の情報量に等しいと言われているからね
ギガの桁 (スコア:0)

by Anonymous Coward on 2012年11月05日 13時19分 (#2266012)

■ツイッタージャパン：震災後１週間分の全ての日本語ツイート（３２ギガバイト）
■ビットリー社：短縮ＵＲＬのデータ（３．１９ギガバイト）
これは？
- ごめんなさい。Re:ギガの桁 (スコア:0)
  
  by Anonymous Coward
  
  ＞日本のマスコミの送出量
  ってことか。すまん。
大災害では通信経路含めたインフラが死ぬ (スコア:0)

by Anonymous Coward on 2012年11月05日 14時48分 (#2266078)

データなど転送も活用も不能になるのだから
大きさを誇っても実際の役に立たない＝意味がない
通信経路の維持や再敷設の早さだけが意味がある
- Re: (スコア:0)
  
  by Anonymous Coward
  
  このワークショップ自体の目的は、数限られた通信経路を有効活用するために、まずはビッグデータを解析して情報の内容の傾向を調べましょう・・・ということなんでしょうけど
トピ主は昭和の方ですか？ (スコア:0)

by Anonymous Coward on 2012年11月05日 15時53分 (#2266139)

「大きいことはいいことだ」なんて流行語があったな
データと成果物がごっちゃ (スコア:0)

by Anonymous Coward on 2012年11月05日 18時38分 (#2266205)

もう書くまでもないけど、観測データとかそう言う(生)データと、放送内容の文字起こしとかそういう成果物がごっちゃになってるのがおかしい。
何でもかんでもアホみたいに詰め込んだ整理できてないデータの集合が「ビッグデータ」でしょ？
テレビ局は震災関係で数千本の取材テープを保管していたりする。(しかも、使い回しちゃったテープもあるので、実際にはもっと発生していた。)
でも、彼らは映像素材をデータとは思っていないと思うし、「ビッグデータ」の人たちには扱えないデータだからなかったことにされてるんでしょう。
それに送出量だけで考えても、最初の24時間で1局あたり200GB弱のMPEG-TSデータを電波に乗っけてるわけで…
# ネタにマジレスだね。
# かっこうわるくてすみません。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  地図情報がサイズが大きいのは当然だけど、ゼンリン大活躍かと言われればちょっと違うと思う。
  運行情報や通行情報、気象データなどを組み合わせることでより有用な情報になる訳で、データ量だけで云々言うのはおかしい。
  ホンダの通行情報が上がってるけど、ライバル社のトヨタや日産にも声をかけて本来虎の子の通行情報を共有合成した自動車メーカーの英断は讃えるべき。あれのおかげで道路の被災情報が詳細把握できたんだよなぁ。
  行政がその成果を上手く使いこなせたかどうかは知らないけど。。
  逆にデータ量が突出してるtwitterだけど、その中で有用な情報ってどのくらいあったんだ?
  玉石混交の情報が行き交って、混乱に輪をかけた部分も大きいんじゃないの?
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    >twitterのデータ
    どのような情報がどのように伝わり、あるいは誤解・曲解されて伝わって行くのかを解析するのに有用だと思う。
    今知りたいのは、自分が東日本大震災で一番戦慄を覚えた瞬間の多分3月14日、自衛隊や消防のヘリが津波を発見というデマ情報の出処と情報の伝播経路。
    デマ情報の報道とほほ同時に福島第一原発建屋の爆発があり、自分自身が一番緊張した瞬間だった。
    そのときラジオ福島を聞いていたのだが、津波情報がデマらしいということになるまでラジオのスタジオは情報が錯綜してパニック状態、一段落した後、アナウンサー泣いてました。私も泣きそうだったし。
    そういったことも含めて、それこそ「ビッグデータ」を解析してゆく必要があると思う。
ビッグデータは役に立つ (スコア:0)

by Anonymous Coward on 2012年11月05日 21時33分 (#2266317)

×単にたくさん集めたデータは役に立つ
◯密かに集めた大量の情報を、個人は特定しませんといいつつ、地域や世代や男女などで勝手に分析するとすげえ役に立つ

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

災害時はデータ容量は軽いほうがいい (スコア:2)

Re:災害時はデータ容量は軽いほうがいい (スコア:3, すばらしい洞察)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:災害時はデータ容量は軽いほうがいい (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

ビッグデータの定義は？ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

厳選しても大サイズ (スコア:1)

「データ」の量自体を比較しても意味はない。 (スコア:1)

は？ (スコア:0)

Re:は？ (スコア:3, すばらしい洞察)

Re:は？ (スコア:2)

Re:は？ (スコア:2)

Re:は？ (スコア:1)

Re: (スコア:0)

Re:は？ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:は？ (スコア:2)

Re: (スコア:0)

Re: (スコア:0)

おそらく裏があるに違いない (スコア:0)

昭和の亡霊 (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

ギガの桁 (スコア:0)

ごめんなさい。Re:ギガの桁 (スコア:0)

大災害では通信経路含めたインフラが死ぬ (スコア:0)

Re: (スコア:0)

トピ主は昭和の方ですか？ (スコア:0)

データと成果物がごっちゃ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

ビッグデータは役に立つ (スコア:0)