その前に。ここで言うところの「データ分析」は、EDA(Exploratory Data Analysis)のことで、データと対話しながら様々な検討を行い、仮説設定と検証を繰り返すプロセスのことを指すことにします。既に何かモデルがあって、それにデータを通せば答えが出てくるフェーズはこの後工程になります。
さて、データ分析におけるクラウド分析環境のメリットとして私が重点だと思っていることは、
- 巨大なデータをローカルにダウンロードしなくて済む
- データをクラウドの中に閉じ込めることで、分析者がデータのセキュリティを気にしなくて済む
- ブラウザだけで分析ができるので、ローカル環境を選ばない
では、新しくなった(と言ってもニュースをキャッチし損ねていたのでしばらく前ですが)Google AI プラットホームは、一体何が新しくなったのか。
過去記事:
クラウドでのデータ分析を推奨する理由 (2017/9/8)
googleクラウドにたてた Web Server をセキュアに使う (2017/9/10)
この二本の過去記事では、まずクラウドでデータ分析をすることの優位性を示し、そのあと、当時の道具を使ってどうしたらそういうことができるのか(但し、私の好みの分析環境で)を書きました。具体的には、二本目ではRStudioをGCPで動かし、それをGoogle Accountの認証を通してローカルへ画面だけ持ってくる方法を示しています。ポイントは、「Google Accountの認証をとおして」という部分で、その前提が「データ分析者はセキュリティの専門家ではない」です。セキュリティに詳しいシステムエンジニアならば同じ仕組みをパパッと作ることができるのですが、データサイエンティストはシステムやセキュリティの専門家ではないので難しい。だから、あるそういうところはGoogleさんにお任せしたいんです。
で、今回の新しいサービス「Google AIプラットホーム」は、これがもっと簡単になりました。上記事で書いた方法は、どうしても自分で考えて接続しなければならなかった。Cloud Consoleを立ち上げておくとか、ポート番号を気にしなきゃならないとか、そういう「システム」「ネットワーク」のことを考えなければならなかった。その時点で、データサイエンティストには重荷でした。しかし、新しいサービスはこれを克服し、分析環境を選択するだけで分析環境が立ち上がるようになりました。もちろん、前記事で書いたような、GCPのその他のソリューション(最強DBである BigQuery や、クラウドストレージのGCSほか)ともプロジェクトの中で(つまり、データをプロジェクトに閉じ込めて)利用できるようになっています。
次記事では具体的にJupyter notebook と R と bigquery の環境を作ります。
0 件のコメント:
コメントを投稿