パスワードを忘れた? アカウント作成
796349 story
クラウド

クラウド型「人力OCR」、どう思う? 59

ストーリー by hylom
人に見られてまずいものはネットに出すな 部門より
uxi 曰く、

ASCII.jpにて、クラウドノート「KYBER」なるものが紹介されている(記事)。要するに自分の書いたノートをクラウドに保存できるという、一見よくありそうなサービスなのだが、このサービスが一線を画すのが(中国人を主体とした)人海戦術によって非常に高精度なOCRを行うという点。

しかし、処理を行うのは日本語が分からない人間で、また一度に処理するのは意味の繋がらないような細切れの断片だとしても、自分の書いたメモが確実に人目に触れていると思うと、どうにも気持ちが悪い。仕組みは単なる入力代行サービスと同じなのだから、それを気持ち悪く思うのはそもそも使い方が間違っているのかもしれないが……。

クラウドが流行る昨今だが、他人の管理下にあるサーバーに個人的なデータをストアすることに抵抗感を覚えるタレコミ子。Gmailにさえも抵抗感を覚えてしまう辺り、ちょっと古目の人間なのかもしれない。Evernote などのクラウドサービスを日々使いこなしておられる諸兄におかれては、クラウド上にデータを保存することなども含めて、どう感じられただろう?

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2011年09月22日 21時03分 (#2023425)

    一般の人が知らなかっただけで法人用途では昔からあったんですよ。半人海戦術の人力OCRは。
    そもそもこのKYBERの会社だって、ここ1、2年でできた会社じゃないはず。
    自分の書いたメモが他人に見られて恐い……とか言っている人が過去に書いた
    保険や通販の申込書とかがこの手の業者によって、すでに電子化されてんですよ。ほぼ間違いなく。

    逆に言うと、すでにセキュリティのノウハウがあって、
    (文節で区切ってバラ撒くとか。日本人オペレーターが書類を1枚1枚入力するよりよっぽど安全)、
    堅めの企業相手に取引ができる程度には信頼を勝ち得ているので、
    個人相手にサービスするにあたって、安心感を得るための努力や警戒感が足らないのかもしれない。

    そしてそれは法人相手のビジネスばっかやってた企業が比較的陥りやすい罠ではある。

    • by Anonymous Coward

      >自分の書いたメモが他人に見られて恐い……とか言っている人が過去に書いた
      >保険や通販の申込書とかがこの手の業者によって、すでに電子化されてんですよ。ほぼ間違いなく。

      保険や通販の申込書と比べると、メモというのはより個人的なものになりやすいですよね。

      そう考えると用途はけっこう絞られてしまうのかも。
      自分の場合はですが、メモはそのままでは出せないかな。

  • by Anonymous Coward on 2011年09月22日 18時27分 (#2023342)

    こんな感じの日本語 [sawadan.com]が量産されるのかもと思うと、胸熱。

    #「日本語が分からない人間」というのがどうもね。わかっててもなんかイヤだけど。

    • by Anonymous Coward

      チョコボがチョコポになったりボイスがポイスになったりするんですね。

  • 日本の特許公報は平成5年公開以降はテキストデータがあるが、それ以前はOCRデータしか存在しない。それ故に全文検索がやりづらい。

    また、平成5年以降のものについても、表は画像になっていたりするので、実施例に記載の名称(部品や成分名など)がヒットしなかったりする。

    昭和40年くらいから、これらを全てテキスト化してくれたら非常にありがたいんだが。

    特許公報は公開情報なので、セキュリティ面も無問題。

    • by Anonymous Coward

      そして、「特許権者の名前が違う」とか「特許の内容が違う」とか言う問題が続出して年金問題と同じ運命を辿る訳ですね。

  • 先頃本家で紹介 [slashdot.org]されていた、MobileWorks [mobileworks.com]は、
    インド人に細かい業務を依頼でき、しかもAPI経由でどんなソフトウェアからも
    業務を依頼でき、わずか数秒で結果を返すことができるらしい。ほんまかいな。

    OCRとか、画像認識とかには向いているよね、てなことだが、
    コメント欄では早速 "Slavery 2.0" とか揶揄されている。

    件の「KYBER」は、判別精度とか情報漏洩とかが問題になりそうだけど、
    タレコミの紹介記事読むと、単語にばらして一致しているか○×で
    回答させているから、複数人に同じ問題やらせて結果担保させるとか、
    問題をシャッフルさせて元の文書を分からなくするとか、割とうまいこと
    やらせているんじゃなかろうかと。

    多分「インド人API」を使うのであれば、そういう点も
    ちゃんと考慮してつかわないとまずいでしょうね。

    むしろ問題になるのは、"Cloud" でデータが保存されていることよりも、
    今後 "Crowd "サービスが増えていくと、現代版・奴隷貿易みたくなって、
    途上国から非難されて国際問題化したりしないか、とかいう点ではないかと。
    タレコミ文は、論点をどこに持って行きたいのか、いまいち謎だけど...

  • by moci (11748) on 2011年09月22日 18時39分 (#2023353) 日記

    (中国人を主体とした)人海戦術によって非常に高精度なOCR

    古くは香港の模型メーカー・ドラゴンの説明書に見られた「フや消しブラソワ(つや消しブラック)」、あるいはフジエアーのDVDプレイヤーの「オーポン(オープン)」 [plala.or.jp]の再現が目に浮かびます。

  • 経理、総務の日本語処理をオフショアってのは数年前から出てきたてみたいですね。
    http://diamond.jp/articles/-/717 [diamond.jp]

    コンシューマ向けで、クラウドってのが新機軸なんですかね。

  • 試しにハニーポットのIDとパスワードを変換させてみたくなってしまった。
    私は意地悪だろうか。
  • by LaMaLaWa (43021) on 2011年09月22日 18時17分 (#2023335)
    Optical Character Recognitionって言っていいの?
  • by Anonymous Coward on 2011年09月22日 18時30分 (#2023345)

    T/O

  • をなんとなく思い出しました。
    http://www.itmedia.co.jp/enterprise/articles/0710/29/news031.html [itmedia.co.jp]

    • クラウド+OCRというと私はまっさきに reCAPTCHA を思い出しました。
      http://orepan.jp/category_daily/2010_05_27_recaptcha.html [orepan.jp]
      reCAPTCHAは自身がCLOUDサービスとして認証(ボット判定)機能を他のWebサービス会社に提供しつつ
      そこから得られるCROWDの集合知をOCRに利用するという、考えた人天才!な仕組みです。

      本件のサービスもそれに似た方向のようですが、 reCAPTCHAはWin-Winなので
      無報酬で回るのに対し、本サービスは報酬を払う形という点で、クラウド的には
      もう一歩先へ進めて欲しいところではあります。

      ちなみに・・・
      中国人に書類を見られるのがイヤと言う人には残念なことに、
      あなたが役所やお店で書かされた書類を電子化する際は、
      データ入力は大抵日本人が行うものの、その検証は中国にアウトソーシングされることが
      とっくの昔から普通に行われております。(全部じゃないですけどね)

      親コメント
      • この手の攻撃だとreCAPTCHAも危ない気がしてきたんですが。
        特に行きずりで使うような怪しげなファイルホスティングサービスのreCAPTCHAが実は別サイトのアカウント取得用reCAPTCHAにリダイレクトされていた・・・とか、ありそうな話かも。
        ちょっと位reCAPTCHAのUIが間違っていてもユーザは気にしませんし、気が付いても本人に目に見える実害が無い以上、検出する手間も通報する手間も掛けたくないでしょうし・・・

        これからはreCAPTCHA見かけたらBlackJumboDogのプロキシログにreCAPTCHAへのアクセスがあるかどうか気にする事にしようと思います。
        # recaptcha.net または www.google.com/recaptcha

        とはいえ発見しても意味があるかどうか。
        標的の特定はGoogle(reCAPTCHA)側なら可能なのだろうけれど、標的判っても攻撃阻止が出来なきゃ意味ないし。
        CAPTCHAとしては死活問題じゃないのかな、これ?

        親コメント
  • by Anonymous Coward on 2011年09月22日 19時07分 (#2023376)

    中国の人海戦術処理方式は別に珍しいものでもない
    所定の書式の注文書によるFAXでの発注を受け付けている通販業者には、スキャンした画像を中国の端末に表示させ、人が読みとった商品番号や数量をキーボードから入力しているところがある
    発注者の住所等は代わりにあらかじめ登録された顧客コードを注文書に記入するようになっているので、中国では英数字を読みとるだけの作業ですむ
    他にも各種申込書類のたぐいで中国で読み取り・コンピュータへの入力処理をしているものがかなりあるのでは?

  • by Sukoya (33993) on 2011年09月22日 21時44分 (#2023447) 日記

    日本国内でも一時期静かなブームになった方式じゃなかったっけ?
    http://www.outsource.co.jp/out_p/ocr-6.html [outsource.co.jp]

    ソーシャルメディア的にクラウドでやるのが新しいのか。

    • by Anonymous Coward

      既に日本国内でありますね。

      OCRの訂正を人海戦術で行うのは、人件費が嵩むだけでスマートな解決方法とは到底思えませんね。

  • by s02222 (20350) on 2011年09月23日 1時55分 (#2023525)
    中国製コーラン、誤植だらけ…イランが輸入禁止 [yomiuri.co.jp]とかいうニュースをこないだ見かけたし。なぜ世界有数に厳格な定型文でそんなことが起こるのかよく分からないんだけど・・・。
  • 「天安門」とか「法輪功」とか「チベット」とかちゃんと処理されるんだろうか

  • by kalb (19692) on 2011年09月23日 11時48分 (#2023633)

    震災の時に、現地にいる人が避難所に掲示している避難者名簿を撮影してネットに上げ
    各地のボランティアがそれをテキストにしてネット上にデータベースを作るってのをやってました。
    今も残っています。
    http://www.google.co.jp/intl/ja/crisisresponse/japanquake2011_voluntee... [google.co.jp]
    あらためて見たら日本語以外への翻訳も行っていたようです。

  • by Anonymous Coward on 2011年09月22日 18時46分 (#2023362)

    とりあえず、ホームページの浅いところには
    断片でも他人に読まれる、って書いてないですね。

  • by Anonymous Coward on 2011年09月22日 18時56分 (#2023367)

    技術がまだ追いついてないだけで、過渡期の産物でしょう。
    人力分類でのディレクトリ検索がGoogleなどの機械式に取って代わられたように、近い将来消えていくと思いますね。

    どうせなら未来のある方を使いたいし、多少問題があっても他のサービスを選びます。

    • 儲けることができるんだと思います。

      こんな商売も成立するのかと正直驚いた。
      ニュースを見て他に人海商売できないかなーとか考えちゃうけど、そんなじゃ遅いんですよねー。
      株価の頂点で買ってしまう客のように。

    • Re: (スコア:0, 興味深い)

      by Anonymous Coward

      よく記事読もうぜ。これも機械式だよ。

  • by Anonymous Coward on 2011年09月22日 19時33分 (#2023387)

    思い出すのはIBM OS/2のマニュアルにあった「ディチスット」。もちろんIBM用語のディスケット。

  • by Anonymous Coward on 2011年09月22日 20時08分 (#2023400)

    依頼者とメモの中身が関連付けられさえしなければ問題ない。

    • by Anonymous Coward

      メモの中身から依頼者が特定できることもあるだろうよ。

  • by Anonymous Coward on 2011年09月22日 21時03分 (#2023426)

    という段階みたいですね。
    会社としては、既に企業向けの仕事はしていて、個人向けにクラウドノート「KYBER」を進めたい。

    日常的にメモを取りまくっていて、さらに早急に電子化したいという人には便利なのかな。

  • by Anonymous Coward on 2011年09月22日 21時37分 (#2023442)

    クラウド型OCRか。
    クラウドねー。

    要はあっちにあるとか、あっちでやるかだな。途中が雲みたいなっていて向こう側が見えない。

  • by Anonymous Coward on 2011年09月22日 22時34分 (#2023463)

    人肉雲

  • by Anonymous Coward on 2011年09月22日 22時34分 (#2023464)

    監視しないとすぐサボると思うんですが、品質の監視用のチームと分担させているのでしょうか?

    人力OCRのチームがページあたり9割の確率で真面目に働いてくれて、
    品質の監視チームが同じく9割の確率で真面目に働いてくれるとしたら、
    不良ぺージが出てくるのは1%ほどの確率で、不良品率1%なら商用サービスとして機能するとかそんな感じですかねえ。

    • だんだんみんな画面も見ずにランダムにボタンを押すだけになるとおもいます。
      正しくしても間違っても給料が一緒なら自分でもそうします。
      すると、正しく真面目に仕事をした人が損をするだけなので破綻するでしょう。

      それを防ぐために、正しくマルバツをつけているか評価する人員が必要です。
      それも中国人を雇って人海戦術でやったらいいでしょう。
      以下ループ。

      親コメント
      • by Anonymous Coward

        それ機械的にできない?

        ランダムに複数人に同じ内容配ってマルバツの結果をdiffする。
        担当の正解率を計算する。

        部署全員の正解率と、そいつの正解率を比較する。
        正解率が高い人にはご褒美、悪い人はクビ。

        部門全員ががんばるほど正解率があがって競争激化。
        サボる人は機械的に排除。

        このシステムを突破するには部署の半数ぐらいが同じくサボればいいけど、人数が多いと難しいし、抜け駆けされるかもしれない。
        ってな感じでどうよ。

        #某ECの倉庫はこんな感じって噂を聞いたことがある。怖いね

        • by Anonymous Coward

          正解がわかっている問題を混ぜておくという手は?

          そういう問題の正答率が低い人は
          「真面目にやってない」か「真面目にやっても役に立たない」のでサヨウナラと

          これなら一致団結してサボる手はきかないかと

        • by Anonymous Coward

          >#某ECの倉庫はこんな感じって噂を聞いたことがある。怖いね
          安い人材を効率的に使うシステムだけがどんどん洗練されていくなあ。
          ICタグとかも、万引きを防止するためと考えている人が多いと思いますが、
          欧米の会社にとっての一番主要なニーズは、「店員による」商品の抜き取り防止が目的だと、(たしか)ICタグ関連の本で読みました。
          たしかに、モラルで成り立っている日本的なシステムよりも、
          人材の質が低下しても成り立つ欧米的なシステムのほうがよりロバストだなと思います。

          でも、日本で従業員のモラルと現場の自由裁量が無くてもやっていけるようなシステムを導入すると、
          不思議とモラルのほうもだんだんと崩壊していき、システムの改良がおっつかないから、さらによりマズい運用になっていく。

  • by Anonymous Coward on 2011年09月22日 23時43分 (#2023484)

    やはりクラウドには抵抗感がありました。極力クラウドサービスは避けていたんです。
    でも実際使い始めると便利。
    Evernote + Andoroid で結局ばりばり使う羽目に。やめられないどころか依存が高まる次第。

    自分での素人サーバ管理よりましの可能性大だし面倒なのでまあいいっか。

    でもとにかく個人情報に対する認識が甘いgoogleに情報が集約しないようには気をつけてます。

    複数台のパソコンが面倒なのはデータ管理だったんだと今更気づいた。

  • by Anonymous Coward on 2011年09月23日 4時42分 (#2023540)

    OCRさせてみる。

    • by Anonymous Coward

      直ちに影響はない

      あとでじわじわくるのか?

  • by Anonymous Coward on 2011年09月23日 10時40分 (#2023606)

    いかに元記事を読まずに好き勝手なコメントをしているか、ということだけだな。
    # まぁ、いつものことだが。

typodupeerror

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

読み込み中...