« Q.Ethan McCallum「バッドデータ ハンドブック データにまつわる問題への19の処方箋」オライリージャパン 磯蘭水監訳 笹井崇司訳 | トップページ | ゼナ・ヘンダースン「ピープル・シリーズ 果てしなき旅路」ハヤカワ文庫SF 深町真理子訳 »

2019年6月 9日 (日)

セス・スティーヴンズ=ダヴィッドウィッツ「誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性」光文社 酒井泰介訳

よきデータサイエンスの方法はえてして直感的だが、結果は往々にして反直感的である。
  ――第1章 直感は裏切り者

ビッグデータ革命の勝負では、より多くのデータを集めるよりも、正しいデータを集めるほうが大切だ。
  ――第3章 何がデータになるのか 驚くべき新データの世界

ソーシャルメディア(SNS)上では、サーベイと同じく、真実を述べるインセンティブが働かない。
  ――第4章 秘められた検索

ビッグデータなら有意義な下位集団に絞り込んで人の性質について新たな洞察が得られる。
  ――第5章 絞り込みという強力な手法

「このデータで証券市況を予測できると思うかい?」
  ――第7章 できること、できないこと

本書の場合それは、社会科学は本物の科学になりつつあるということだ。
  ――結びに ここまで読み通した人は何人?

【どんな本?】

 Amazon で本を調べると、「よく一緒に購入されている商品」が出てくる。Twitter は、「おすすめユーザー」を教えてくれる。私が Youtube を開くと、70年代または70年代風のロックが「あなたへのおすすめ」にズラリと並ぶ。おかげで私はポール・ロジャースの歌声に不自由しない。ちなみにエッチなのは別のサイトで…いえ、なんでもない、ないったら!

 Amazon も Twitter も Youtube も、別に私の好みを知っているワケじゃない。知っているのは、今まで私が何を見たか、だ。そこから推測して、私の好みに合うものを薦めてくる。と言ってしまえば簡単だが、では、どうやって推測するんだろう?

 彼らは膨大な数の利用者を抱えている。その中には、私と好みが似ている人がいる。そこで、例えば Youtube なら、私に似た人が見ていて、私が見ていない動画を、私に薦めるのだ。

 似たような事を、Google や Facebook もやっている。私たち利用者が「どう使ったか」のデータを集め、より使いやすく、より楽しく使えるように、日々工夫しているのだ。だってたくさん使ってもらった方が儲かるし。

 と同時に、集まったデータの一部も公開している。例えば Google トレンド は、指定したキーワードが、いつ、どこから、どれぐらい検索されているかを教えてくれる。おお、津原泰水さん人気爆発してるなあ←記事を書いてる最中に遊ぶな

 いずれも、膨大なデータが集まったからこそ出来ることだ。また、インターネットが普及して多くの人が使っていること、そして大量のデータをコンピュータが処理できるようになったことも大きい。

 このような「ビッグデータ」は、私たちの意外な姿を明らかにしてくれる…場合も、ある。また、地域の治安や健康状態の向上にも役立つ。と同時に、使い方によっては困った事もできてしまう。

 ビッグデータとは何なのか。それで何ができて、何ができないのか。ビッグデータはどこにあるのか。どのように使うのか。そして、ビッグデータが暴き出した私たちの正体は、どんな姿をしているのか。それが何の役に立つのか。

 哲学と経済学を専攻した著者が、ビッグデータの基礎と面白話を集め、社会学の革命を目論む問題の書。

【いつ出たの?分量は?読みやすい?】

 原書は EVERYBODY LIES, by Seth STephens-Davidowitz, 2018。日本語版は2018年2月20日初版第1刷発行。単行本ソフトカバー縦一段組みで本文約314頁。9.5ポイント42字×17行×314頁=約224,196字、400字詰め原稿用紙で約561枚。文庫本なら普通の厚さの一冊分。

 文章はこなれている。内容も難しくないし、適度に野次馬根性を刺激するネタが入っているので、意外とスラスラ読める。社会学の本でこれほど楽しく読める本は珍しい。敢えて言えば、アメリカ人向けに書いているため、特にバスケットボールやアメリカンフトボールの例がピンとこないかも。

【構成は?】

 各章は比較的に独立しているので、気になった所だけを拾い読みしてもいい。ただし、終盤で明らかになるのだが、けっこう真面目かつ理論的な話もしていて、それの全体像をつかむには素直に頭から読んだ方がいい。

  • 序文 スティーブン・ピンカー
  • 序章 いま起きているビッグデータ革命
  • パートⅠ 
  • 第1章 直感は裏切り者
  • パートⅡ 
  • 第2章 夢判断は正しいか?
  • 第3章 何がデータになるのか 驚くべき新データの世界
  • 第4章 秘められた検索
  • 第5章 絞り込みという強力な手法
  • 第6章 世界中が実験室
  • パートⅢ 
  • 第7章 できること、できないこと
  • 第8章 やってはいけないこと
  • 結びに ここまで読み通した人は何人?
  • 謝辞/注

【感想は?】

 え? 社会学の本なの? 社会学って、こんなに楽しかったっけ?

 とか言い出したくなるぐらい、面白いネタがギッシリ詰まってる。その面白さには幾つかの種類があるんだが、その筆頭は書名にあるとおり、著者の研究が明らかにした人間の本性だ。

 これは序章に巧くネタを配置していて、私たちが興味を持ちそうなネタを軽く紹介してくれる。これは巧い構成だ。映画でいえば、最初に予告編を上映するような感じだ。特に、アクション映画の。

 アクション映画の予告編は、たいていが「これでもか!」というぐらいの爆発の連続だ。そこで「おお!」とは思うが、お話が繋がっていないので、いまいちピンとこない。「いったい、何がどうなってこんなシーンになるんだ?」と気になって、私たちは映画館に足を運ぶ。この本もそんな風に、序章で美味しそうなネタをチラリと見せて、本文へと私たちを誘う。

 で、本文を読むと、やはり期待にキッチリ応えて野次馬根性を満足させてくれる。

 例えば男がポルノを検索する際、女役の職業設定は何を好むのか。これを青年・壮年・高齢者で比べてるんだが、実に意外なのが不動の一位だw きっとこれはアメリカ特有の現象だと思うんだが、どうなんだろうね。どうでもいいけど私の趣味はかなり爺ムサい事もわかってしまった。いや私が惹かれるキーワードは年寄りにウケるんだ。

 こういうシモネタは、やっぱり読んでて楽しい。と同時に、上の例では、もう一つ意外な点が明らかになる。データのソース、ネタ元だ。上では Amazon, Twitter, Facebook, Google を例に出した。もちろん本書ではそれらも使っているが、ポルノの例では PornHub を使っている。ほんと、あらゆる所からデータを調達しているのだ。

 これはインターネットに限らない。例えばアメリカの分断をテーマとするところでは、書籍からデータを得ている。とはいっても、グーグルがスキャンして電子化したモノなんだけど。ここでは、調べ方も面白い。

 合衆国は英語じゃ United States になる。複数形だ。だから、理屈じゃ be 動詞は複数形の are が正しい。が、現在では主に単数形の is が使われる。実は、18世紀じゃ are が多かったのだ。もともと、それぞれ別々だった植民地=州政府が、独立戦争の際に手を組んだってのが成り立ちだし。それがいつの間にか is に変わった。つまり、州政府の連合って感覚から、USA という一つの国って感覚に変わったのだ。

 それがいつごろからなのかを調べるために、どうしたか。書籍の中に出てくる States are と States is の数を、年代別に数えたのだ。まあ、数えるったってヒトが数えるんじゃなくて、プログラムにやらせたんだろうけど。お陰で、意外なことがわかった。従来の歴史学者は「南北戦争の終わりごろ」と主張していたのだが…

 これは単純に数えただけで見当をつけた例だ。だが、書名「誰もが嘘をついている」とあるように、出て来た数字は素直に信用できないって話もいくつかある。その代表がアンケート調査だ。

 要はみんな見栄をはるのだ。そのため、アンケートだと選挙の投票率が高めに出るが、実際はそれより低い。特に性生活じゃ見栄をはる人が多い。例えば性交回数について、本書ではコンドームの消費量で検証している。他にも気になるのが同性愛者の割合。一般に保守的な地域ほど、アンケートで同性愛者だと答える者が少ない。

 いちおう、言い訳はできるのだ。同性愛者は進歩的な所に引っ越すから、と。対して、著者は巧みな方法で覆す。サンプルを高校生に絞るのである。大人なら引っ越せるが、高校生じゃそうはいかない。で、検証してみると、ご想像のとおり。こうやって本性をあぶりだす手口も、読んでいてとっても楽しい。

ちなみに「ネット炎上の研究」では、炎上に火をくべるイイナゴどもを「高年収・ラジオやSNSをよく使う・子持ちの若い男」との相関が強いとしている。が、私はこれを疑っている。だってソースがアンケート調査だし。

 と、そんな風に、ビッグデータを巧く使えばヒトの本性を暴けるのがわかってきた。当然、Google や Facebook も、手をこまねいて見ているわけじゃないよ、なんてのを終盤では明らかにしてくれる。もちろん、他の企業だってイロイロと…

 やっちゃあいるが、その限界も明らかにしているのが、いかにも学者らしい所。そこを書いているのが「第7章 できること、できないこと」。なんだけど、実はここ、多少の確率の素養がないと難しいかも。要は大数の法則なんだけどね。でも、いい加減なニュースに踊らされたいためにも、この章は時間をかけてじっくり読んでいただきたい。

 俗なネタで耳目を集め、ちゃんと野次馬根性は満足させた上で、キチンとその裏付けとなる理屈や手法もわかりやすく説明し、より広い応用の可能性を示して希望を持たせると共に危険性も警告し、また限界があるとも明言し、最後に大風呂敷を広げて「うおお!」と興奮させる、実に読んでて楽しい本だった。

【関連記事】

|

« Q.Ethan McCallum「バッドデータ ハンドブック データにまつわる問題への19の処方箋」オライリージャパン 磯蘭水監訳 笹井崇司訳 | トップページ | ゼナ・ヘンダースン「ピープル・シリーズ 果てしなき旅路」ハヤカワ文庫SF 深町真理子訳 »

書評:ノンフィクション」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




« Q.Ethan McCallum「バッドデータ ハンドブック データにまつわる問題への19の処方箋」オライリージャパン 磯蘭水監訳 笹井崇司訳 | トップページ | ゼナ・ヘンダースン「ピープル・シリーズ 果てしなき旅路」ハヤカワ文庫SF 深町真理子訳 »