ビックデータが生活や仕事を変える
ビクター・マイヤー=ショーンベルガー、ケネス・クキエ(斎藤 栄一郎訳)「ビッグデータの正体 情報の産業革命が世界のすべてを変える」、講談社 (2013)
お奨め度:★★★★★+α
ビックデータについて論じた唯一の本だと言われている「Big Data: A Revolution That Will Transform How We Live, Work, and Think」の翻訳。ビックデータについて、その本質を知りたい人は、必読。最近、JR東日本がSuicaのデータの販売を始めて話題になっている。これが何を意味しているかをきちんと理解できていないのであれば、自分のためにも読んでおくことをお奨めしたい一冊。
まず、注目してほしいことはビックデータというのは、概論が300ページ強の本になるくらい、深い話だということ。
ビックデータ自体は単純な話である。これまでの統計が標本の世界であったが、ビックデータは全体の世界である。この本ではN=全部の世界だと表現している。これが如何に画期的な3つの変化を起こす。
一 つ目はあるテーマに関して一部のデータや統計的なサンプルでは済まさず、すべてのデータを分析できるようになったこと。二つ目は、正確さにこだわり続ける のではなく、現実世界の乱雑なデータにまっすぐ向き合おうとする意欲が生まれたこと。三つ目は、つかみどころのない因果関係を追い求めるよりも、相関関係 を積極的に受け入れる発想の転換が起こったこと。この3つだ。
まず、一番目。Nが部分の場合には、目の前に起こっていることが説明がつかないと、部分の取り方がおかしいということになる。あるいは、よほど仮説に自信があれば、もう少しNを増やしてもう一度分析する。これをどんどんやっていくとN=全体の世界になっていく。
N= 全体の世界では、発想が逆である。目の前に起こっていることが意味がある。すべてのデータで相関をとってみて、その結果がまったく説明できなかったとすれ ば、それは発見である。この本でも出てくるが、「マネーボール」という映画にもなった小説がある。これはスカウトマンがデータを使ってトレードや作戦を決 め、見事に優勝するというストーリーだ。そこで出てくる結果は、職人の勘や経験をことごとく覆すものであった。
統計ではこういうことは難 しい。観察や経験をベースにして仮説を作り、仮説を検証するためにデータが使われるからだ。「データに語らせる」という言葉が出てくるが、先入観を持たず に、データを見て、法則を発見するのが、N=全体の世界である。ビックデータに世間の関心を集めたのは、グーグルが検索データから新型インフルエンザの流 行を予想したことである。グーグルは米国人が検索時の入力した言葉の上位5000万件を抽出し、2003年から2008年までの季節性インフルエンザの流 行に関するCDFのデータと相関を調べた。つまり、検索の内容とインフルエンザの感染には相関関係があると考えたわけであるが、見事に相関がでてきたわけ だ。
ビックデータの活用が有名になったもうひとつの事例はクレジットカードの不正防止である。クレジットカードの不正防止では、「利用パターンの変則性」を見つけることによって、不正を発見する。まさに、データに埋もれていたものごとが浮かび上がってくるわけだ。
二番目の正確さに拘らないというのも大きな変化だ。統計を使うときには、いかに正確さを実現するかがポイントになる。サンプリング、データの取捨選択などを慎重に行い、正確さになるようにする。なぜならば、統制の結果はどこまでいっても推論であり、納得性が重要だからだ。
僕 はシステム工学を学び、そののち、経営学部で経営学を学んだ。その意味で、統計的は発想は前提であったし、その中で、いかにデータをうまくサンプリング し、いかに正確な結果を得るかにこだわりがある。そして、その背景にあるのが因果関係である。統計として部分を扱っている限り、得られた結果が説明できる ことが極めて重要である。説明できなければサンプリングが不適切だということになる。
人間は考える葦であるという言葉があるが、人間は考 えるのに因果に引っ張られる。実はここが二つの意味で、ビックデータの一番難しいところではないかと思われる。ひとつは、どこに相関がありそうかを見つけ なくてはならない。クレジットカードの不正や、野球というのは比較的考えやすいと思うが、衝撃的な発見には非常に創造性が必要である。もう一つは説明でき ないことを信じてもらわなくてはならないことだ。
たとえば、オレンジ色のクルマは欠陥が少ないということを信じられるかという話だ。
こ のようなデータの活用をしようとすると、基本的な視座が重要になる。その視座として、本書は「データフィケーション」という概念を提唱している。かつて海 図が航海を一変させたように、すべてのものがデータ化されることによってビジネスが一変するというものだ。この議論の中では、データ化が如何に進んできた かという歴史に触れており、ビックデータの本質を理解する上で役立つ。さらには、非常に難しい問題であるデータの価値についても論じている。
後半はデータをうまく活用している事例を紹介している。事例そのものは本で確認してほしいが、この中で使われているフレームワークが面白いので紹介しておく。ビックデータをうまくつかっている企業には3タイプあるそうだ。
・データを保有しているデータ型
・分析ノウハウを持ち、業務として分析サービスを提供するスキル型
・データから新しい価値を引き出すことができるアイデア型
の3つで、これまではデータ型、スキル型がビジネスとなっているが、今後はアイデア型のビジネスが増えてくるだろうと予測している。
また、ビックデータのリスクについても論じている。ビックデータには、
・プライバシーのリスク
・傾向/習性のリスク
・データ独裁の犠牲になるリスク
の3つのリスクがある。ビジネスとしては非常に有望な手段であると同時に、個人としてみれば、かなり怖い世界があるということになる。このバランスは重要なのだろう。
実 はこの本、発売直後に購入して、3~4回、読んだ。読めば読むほど、思考が深まり、非常によい本である。かつてのインターネットと同じくらい、ビックデー タというのはビジネスを変えるインパクトがあるように思える。その全貌を掴むには、評判どおりこの本とお奨めできる一冊である。
コメント