【AI people】は、機械学習や人工知能領域で活躍・奮闘する方々をゲストに迎えてお話を伺っていく、インタビュー企画です。
話題の書籍『仕事ではじめる機械学習』(O’REILLY)の著者である、有賀康顕氏(@chezou)と中山心太氏(@tokoroten)へのインタビュー(前編はこちら)。今回は読者へのメッセージを中心に話を伺いました。
「まずはエクセル」?! 数式アレルギーの人にこそ読んでほしい一冊
ー今回は読者に向けてのメッセージを聞いていきたいと思っています。紙版が出てさらに読者層が広がると思うんですが、こういう人に読んでほしい、というのはありますか。
有賀 数式を見ると「ウッ」てなってしまうような人にも、できるだけ数式じゃなくて、ソースコードで意味が分かるように書きました。なので、ソフトウエアエンジニア、IT系のエンジニアの人は、ぜひ読んでほしいなと思います。
それから、今「機械学習で何かやれ」と上司から振られて困っている人にも読んで欲しいですね。この本では上司が考えるべきことなどにも言及しているので、「オライリーの本にこう書いてあるんですよ」って使って欲しい。
「こういういい本があるんですが、ここにこう書いてあるので、ボスもこういう風に考えてもらえたら」みたいな交渉のために使ってもらえたら、というのも意識して書きましたね。
中山 僕は何を意識して書いたかな……。
心がけたことや意識したことってあまり考えてなかったんですが、「読みたい話と書ける話って違うな」って、書きながら思っていて。「書きたい話」と「書ける話」と「読みたい話」の三つを合わせるのってすごく大変だなっていうのは、書いていて思いましたね。結局僕は、自分が書ける話しか書いてないので。
有賀 それは大丈夫じゃないかな、僕らは読んでて楽しかったから。
この本で一つ面白かったのが、ところてんが書いた二つの章うちの一章は、彼の脳内をダンプしたもの、全部吐き出したものみたいな感じになってるんです。
機械学習の本だってにタイトル書いてあるのに、まずはエクセルで分析しますとかって、エクセルのヒートマップがガンガン出てきて(笑)。
分析で最初にあたりを付けるみたいな話って、絶対こういうことやるんですよ。それで仮説を立ててみて、ここを見てみましょう、と順番にやっていくんですね。
しかも最後にパワーポイントが載っていて、「こんな風にレポートすればいい」と(笑)。見たことないでしょ、こんな本。
少なくとも、オライリーの本でこれ見たこと、僕ないです。
機械学習に手をつける前に辺りを付けて、上司に「データを眺めてみたら、こういうところが分かりました」「こういうユーザーがいるから、この人たちにアプローチしましょう」と絞り込んでいく工程はすごく一般的です。その後で「機械学習を使いましょう」という話になる。
機械学習をはじめる前にこういうことをしておこう、という話が生々しく書いてあるので、すごく面白かったです。編集の方からも「これが価値なんでこのまま行きましょう」と言っていただいて。
中山 でも、エクセルで分析やってて面白かったのは、機械学習とかやってると、個別のデータ見るって忘れちゃうんですよ。
個別にデータ見ていって、本当に異常なやつは何が起こっているのかを調査する。機械学習やってると、いわゆる定性分析みたいなところがごそっと落ちるんですよね。
有賀 自然言語処理ではイレギュラーケースを見ていくからエラー分析をよくやるんだけどね。
Kaggleも良いんだけど、あそこでできることって、CSVみたいな整ったデータがあって、目標となる数値を設定してどうやってスコアを上げていくかみたいな部分に集約されるんですよね。
すごくシンプルでわかりやすいんだけど、実際の問題はもう少し複雑。うまくいかないことが前提で、他のデータや情報とつなぎ合わせてみて裏側を探りに行って、元のデータに必要な要素を追加するというのはよくある話。
中山 その部分は教科書に載らないんだよね、機械学習の理論の外側なので。だから、そういう意味では、今回の本で「実務では絶対やることなんだけれども、教科書では出てこない話」を書くことを意識したかもしれない。
西林にも有賀にも、失敗ケースを書こう、と伝えた。
「『すごいデータ』をいっぱい持ってるから活用したい」の落とし穴
―よくある失敗ケースってどんなものがあるんですか?
有賀 よく直面するケースとして、「うちの会社は『すごいデータ』をいっぱい持ってるんです」というのがある(笑)。
でも、そのデータを使えるかどうかはまた別の話で。データはいっぱいあるけれども、取り出すためには1カ月間待たなきゃいけないとか。
中山 広告をクリックしたログはあるけど、広告をクリックしなかったログはない、みたいな話だね。
有賀 そう。機械学習では「正解」となるデータと「不正解」のデータを両方用意して、その傾向をつかんでいくっていうことをやるんですけど、「正解」の場合しかないとかになるとスタートに戻ってしまう。
機械学習を実際やっていく上で何が一番難しいかっていうと、問題をどうやって機械学習の問題として帰着させるかなんですよね。その問題提起そのものが難しいし、そこが経験が問われるところだなというふうに思っていて。そこがないと、必要なものが何かって分からないんだよね。
―これから機械学習のプロジェクトを始める人たちにアドバイスするとしたら?
有賀 そうですね。機械学習とかデータ分析をこれからやる場合、絶対に社内の人が集まってチームを作ってやったほうがいい、とお伝えします。開発は外注しても良いですが、プロダクトや一番詳しいのは社内の人なんですよ。車のことに一番詳しいのは自動車メーカーの中の人だし、テレビのことに詳しいのはテレビ作ってる人たち。
そういう人たちが持っている「熱い思い」がスタートラインなんじゃないかと思います。その想いを受けて「どうにかしていこう」という立ち上がり方が健全ですね。もしかすると、上司から「機械学習、流行ってるからうちもやれ」みたいな感じになるかもしれないんですけど。
中山 最終的に使うのは現場の人なので、彼らから信頼されないと、どんなプロジェクトもうまくいかないんですよね。だから、現場の人を楽にするとか、そういう気持ちがないと、プロダクトって絶対使われない。人を削減するとかっていう気持ちでやってると大抵駄目で。
言ってしまえば、現場の人を楽にするためのプロダクトって機械学習じゃなくても良かったりしますからね。いきなり機械学習が入ってきて、「あなたは要りません」ってプロダクトが入ってきたら、現場は絶対反発するんですよね。
―ありがとうございます。次回は、機械学習・人工知能関連のエンジニアたちに向けて、スキルアップするためのポイントを伺っていきます。
Team AIでは渋谷で無料勉強会を実施中です。詳細は以下からご確認ください。
Team AI Careerはデータ分析・機械学習系に特化した仕事紹介エージェントです。
最新深層学習案件等に参画しキャリアアップしませんか?
正社員・業務委託の方も是非ご登録下さい。