データサイエンティスト養成読本ビジネス活用編

はじめに

技術評論社さまより

を献本頂いたので、ありがたく拝読させていただきました。

そこで、本書の簡単な紹介と私の感想を書いておこうと思います。最初にまとめると、私の”推し”章は3、5、7、8章です。 特に、テクノスデータサイエンスエンジニアリングの津田氏による第七章「データサイエンスによる科学的ビジネスのすすめ」は一読を推奨します。真摯にデータサイエンスやるってのはこういうことだと私も思う。

言うまでもなく当該書籍に対する私の視点から見たBiased Estimatorとしての一感想なので、そこんとこよろしく。 あともろもろの敬称は略。

第一章:ビジネス貢献するデータ分析「7つのポイント」

セールスアナリティクスの高橋氏による第一章「ビジネス貢献するデータ分析「7つのポイント」」においては、ビジネス貢献度合いをきちんと金額換算(定量化)することの大切さからはじまり、タイトルにもあるビジネス貢献するデータ分析「7つのポイント」についてわかりやすい例とともに説明されている。7つのポイントに相当する各節のタイトルだけでも一通り読むだけでも価値があるだろう。業務でデータ分析に関わっている人間は概ね共感できるものだと思う。

一方、非常に賛同できない点は1-8節にある「データ分析で課題解決しなくてもいいじゃない!解決さえすれば」である。その項に極論としての前置きはあるが「データ分析を活用するかどうかに関係なく、「課題が解決すればいい」」と著者は言い切っている。 ビジネス上の課題を解決していくことは当然必須であるが、データ分析者としてのキャリアを積みたいのであれば、データ分析に関係のない仕事はできるだけ避けたほうが良い。 このような環境で職務経験を積み上げた先にあるのは「おしゃべり課題解決コンサルおじさん」であり、データ分析者ではない。 より正確に言えば「人月単価をあげるためにデータも使えるコンサルタント」という職種が正しいであろう。 従って、これからデータ分析者を目指している読者は、自分がどのようなキャリアを歩みたいのかを意識した上で当該章を読むとよいだろう。 これは著者が会社の経営者であり、その視点から見たBiasが入ってるためこのようなことになっていると考えられる。

私の意見では、個人のキャリアは会社とは切り離して考えるべきであり、従業員は経営者視点(会社が儲かるなら何でもやる)になってはいけない。会社や顧客のために個人のキャリアや生き方(データ分析以外の仕事も何でもやるデータ分析者)を犠牲にするような労働はすべきではない。会社、所謂”法人”とは、ビジネスがうまくいかなくなった場合であっても個”人”が責任を取らなくてもいいようにと作られた法の名の下の”人”なのだから。

第二章:データ分析のプロジェクトマネジメント

コニカミノルタジャパンの矢部氏による第二章「データ分析のプロジェクトマネジメント」においては、データサイエンス組織のあるべき姿の定義からはじめ、ビジネス課題の同定・分類、優先順位付け、チームの組み方について丁寧に説明されている。本章を一通り読めば、データサイエンスプロジェクトにおいて致命的な失敗をおかすことはないだろう。データサイエンスに関する業務企画が立ち上がる前に一読することをお勧めする。 1つ残念だと感じた点は文中の横文字が多い点である。ニーズ、ウォンツ、プロダクトアウト、データのキャラクター、マーケットイン、プライオリティなど多数の横文字が登場する。多数の横文字を使って顧客を煙に巻く営業戦術取るコンサルタントのような印象を受けかねないので、私は不必要な横文字の使用は控えるべきであると考える。 例えば

  • 「マネタイズするにはマーケットインの視点でビジネスサイドのニーズ・ウォンツを満していることが必要条件である」

という文章を書くなら

  • 「収益化するためには、実際に使用する人の立場に立ち、彼らの要求を満していることが必要条件である」

と書いた方がよほど分かりやすいのではないだろうか?*1

私の従前の職場でも横文字が大好きな方々がおり、「お互い横文字でコミュニケーション取るも、お互い何を言ってるのか理解できず横文字を改めて日本語に直して聞き返す」ということを繰り返している方々がいた。 その様を見て、仲の良い同僚と笑いを堪えるのに必死だったことを今でも鮮明に覚えている。

第三章:機械学習プロジェクトの進め方

DeNAの奥村氏による第三章「機械学習プロジェクトの進め方」においては、機械学習プロジェクトのライフサイクルからはじまり、AIがあれば何でも課題解決!となりがちな現場との期待値調整まで非常に丁寧に書かれている。 実際に「機械学習を使ったモデルを本番環境で運用する必要がある・やってみたい」方は必読である。日本語も非常に丁寧に書かれており、読みやすくとても好感が持てた点も大変良い。 本章で書かれている内容に沿ってプロジェクトを進め、すべてのライフサイクルを経験できるような小さなプロジェクトを何度も体験し経験値を積み上げていくことこそ何より大切だと、私も強く教えられた素晴らしい章である。

第四章:メルカリが挑むスピードデータサイエンス

メルカリの樫田氏による第四章「メルカリが挑むスピードデータサイエンス」においては、メルカリにおけるBIチーム、組織、文化が詳しく紹介されている。メルカリのBIチームに興味がある人は必読だろう。 この章を読めば現在、メルカリのBIチームがどのような体制・運用方針で動いているのかがよくわかり、これから当該チームへ加わろうと考えている人には最高の材料なのではないだろうか*2

横文字が多いのも著者の持ち味なのだろうが、これも私には全くよくわからない。 採用時に見るべきポイントとして「パトス・エトス・ロゴス」の資質を評価すると言っているが、仮に、このチームを中途採用で受けたとして、不採用通知に「大変不本意ながら貴殿はロゴス不足のため、採用を見送らせていただきました。今後のご健闘をお祈り申し上げます。 」と連絡されたらどうだろうか?相手を馬鹿にしてるか、冴えないギャグを言っているようにしか私には聞こえない。

一方、タイトルに「データサイエンス」とあるが、これはデータサイエンスというよりも「正しいPDCAで意思決定を高速化するためのビジネス改善コンサルタント」という方が正しい。 このような活動をサイエンス(科学)と呼称する人間がいるため、世間でのデータサイエンスの定義が一致しないのである。

真にデータサイエンスを呼称したいのならば、数々のデータサイエンスの手法を提供してくれているサイエンス(科学)自体にもリスペクトを持つべきではないだろうか? 昔、学生の研究発表を見た際に「君の研究はサイエンス(科学)じゃない」と泣いた教授がいたという。サイエンスという語はそれほど重いのだ。 ビジネス界隈における「サイエンスの耐えられない軽さ」に、私はだいぶ飽き飽きしている。

第五章:失敗しないデータ分析組織の立ち上げ方

NextIntの中山氏による第五章「失敗しないデータ分析組織の立ち上げ方」では、第三章同様、機械学習プロジェクト導入のためのプロセス説明から始まり、データ分析組織組成の失敗事例と続く。 特筆すべきは著者の経験などに基づいた事例が掲載されいている5-2である。所謂、「オーバースペック」な人材を採用して失敗する例からはじまり、多数の失敗した組成事例が記載されている。

このようにまとまった形で記載されている点は大変貴重であり、今後データ分析組織を立ち上げようと企図している方にとっては大変参考になるのではないだろうか*3。 特にエンジニア v.s. データサイエンティストの構図はとてもわかりやすく表形式にまとめられており、読者が自分のメンタルモデルとこれらの表を比較して、データサイエンティスト寄りなのかエンジニア寄りなのか、 どちらのキャリアを歩むのかを決める参考にもなるだろう。

最後に、ここでは言及しなかった5-3「SI企業におけるデータ分析組織の立ち上げ方」だが、(本書ではポジティブな改善案も含めた)”SIerディスリ”は著者中山氏の伝統芸なので、ここでは割愛しておこう。

第六章:データ分析のはじめ方

Classiの伊藤氏による第六章「データ分析のはじめ方」ではその名の通り”データサイエンスの入門”について書かれている。トートロジー失礼。 正直、なぜこの内容が本書の一番初めではなくここにあるのかが不思議でならないが、そこは敏腕編集者・高屋氏の采配なのだろう。 高級な寿司を食べている途中での口直しのガリ、そういうことだ。

シンプソンのパラドクスに言及されている点が入門書として記載されているのは目新しいと感じるが、 その対処法、あるいは数理的な視点として条件付き確率で見るとどうなるか、などの考察も”サイエンス”を語るなら欲しいところである *4

一方、6-4「KPIの設計とモニタリング」はKPI設計にかかわる必要のあるデータアナリストの方は一読しておくとよいだろう。KPI指標の先行・遅行性など、経済学部を出られた著者ならではの視点が楽しめる。

第七章:データサイエンスによる科学的ビジネスのすすめ

テクノスデータサイエンスエンジニアリングの津田氏による第七章「データサイエンスによる科学的ビジネスのすすめ」はデータサイエンスの何たるか、その真骨頂を知るために必読である。 無駄で冗長な表現はやめて簡潔に一言で言おう。

「この章を読むためにだけでも本書を買え」

、こういうことだ。彼が、彼こそが真のデータサイエンティストなのである。He’s A PirateならぬHe’s A Data Scientistだ。

本書の大多数の著者が定義なくデータサイエンスを語る一方、彼は科学者らしくデータサイエンスの定義から話をはじめている。 この点だけでも大変好感が持てないだろうか? まともなプログラマなら”定義されていない変数(ここでは用語)”は使わないのである。 誰だって「error: not found: value x」なんて御免だろう! 嗚呼、「アーリーアダプタに適したプロダクトをラピッドにローンチして云々」などと尤もらしく(手ではなく)口がよく動く輩との差たるや!!!

…熱くなり過ぎた。

さて、氏の定義ではデータサイエンスとは「データから有用な知見を得るための様々な理論や技術の集合」と定義している。 ここで(きちんと!)定義されたデータサイエンスが現在ブームの人工知能といかに関連しているのか、 さらに、事業担当者のスキルを高めてデータサイエンス人材として活躍・登用していくことがいかに重要かを平易に説明してくれている。

続く7-2「データサイエンス技術の特性」では上述した”事業担当者がデータサイエンス人材になる”ために知っておきたいデータサイエンス技術をビジネス要件に合わせた手法の使い分けまで含めて解説してくれている。 なんとありがたいことか!AI時代の聖書なのではなかろうか。 特に「確率や不確実性に慣れていない、単一の値でのみものを評価することに慣れた方々」はここで書かれている予測結果の不確実性という概念についてしっかりと学んでおくとよいだろう。

そして続く7-3「データ駆動でビジネスを改善するための科学的アプローチ」である。 彼は「科学の根幹は答えのない領域において答えを探求するための考え方や方法論にある」と言い切る。 そしてデータ活用自体も科学的方法論により検証していくことが大切であると述べている。 科学的思考とデータを活用したPDCAの類似点をあげ、正しく科学的思考を行うことこそ正しいPDCAサイクルを回すことと同義であると詳細に説明してくれている。 まさにデータサイエンスかくあるべしなのだ。

日本の学術界とビジネス界が彼を架け橋として密に繋がってくれることを願って次の章へ行こう。

第八章:今こそデータ分析の民主化

ExploratoryのCEOである西田氏による第八章「今こそデータ分析の民主化を」では、まず、現在世界的に巻き起こりつつあるデータ分析の民主化の流れの説明から始まり、 それが起こっていない(非民主化)の状態にある場合、どのような問題が起こるのかを説明してくれている。 そして、それを解決するためにシリコンバレーの会社ではどのようにデータの分析の民主化に取り組んでいっているのかを具体的な会社事例も含めて説明してくれている。

通常、プロダクトを作っている会社のCEOの書籍(担当章)となると、自社の宣伝が多数になると思われがちだが、 西田氏のBLOG同様、彼がシリコンバレーで得た知見を惜しみなく日本にいる読者に分け与えてくれている。なんとありがたいことか! 特に、AirbnbFacebookなど、世界を代表する企業の例が紹介されておりそこを読むだけでも非常に参考になるだろう。 彼らが行っている「データ分析の民主化」と同レベルのことが日本で起きれば、意思決定を支援することを生業としているデータアナリストはただの作業者になるか、あるいは失職するのではないか? そのくらいの強いインパクトを感じることができ、私も日々精進せねばなるまいと気持ちを改めていきたい。

最後に、「実は日本の製造業が統計的品質管理で世界一だったので、日本にはまだその素質・可能性はある」と結んでくれているのは、著者の優しさと日本人への期待からだろうと信じている。

第九章:People Analytics入門

大成氏による第九章「People Analytics入門」ではピープルアナリティクスの定義からはじまり(ナイス!)、そのアプローチを説明してくれている。 残念ながら、私はこの分野については全くの門外漢なので、ここでは言及を控えよう。

ただし本章の図1のベン図、テメェは絶対だめだ

賢明な読者諸君はこのようなベン図を書いてはいけない。

第十章:People Analyticsが会社の業績を変えるまで

日本データサイエンス研究所の加藤氏による第十章「People Analyticsが会社の業績を変えるまで」は九章と同じく人事領域におけるAI活用について説明してくれている。 ここも九章と同じく、私はこの分野については全くの門外漢なので、言及することはできない。

*1:ちなみに私はマーケットインの厳密な定義を理解していないので上の文章には内容の齟齬があるかもしれない。これは常識なのだろうか?

*2:私自身は合わないだろうなと感じた

*3:私も大変勉強になった

*4:タイトルは「データ分析のはじめ方」になっているが、その直後で本文は「本章では、データサイエンスのはじめ方…」となっている。さて、私たちはどちらを始めているのでしょう???