2019/08/26

新しくなった Google AIプラットホームはクラウド分析環境の決定版か?(前置き編)

しばらく前にベータ版がリリースされていた、Google Cloud Platform (GCP) の AI Hub が、求めていた分析環境に非常に近かったので、共有します。

その前に。ここで言うところの「データ分析」は、EDA(Exploratory Data Analysis)のことで、データと対話しながら様々な検討を行い、仮説設定と検証を繰り返すプロセスのことを指すことにします。既に何かモデルがあって、それにデータを通せば答えが出てくるフェーズはこの後工程になります。

さて、データ分析におけるクラウド分析環境のメリットとして私が重点だと思っていることは、
  • 巨大なデータをローカルにダウンロードしなくて済む
  • データをクラウドの中に閉じ込めることで、分析者がデータのセキュリティを気にしなくて済む
  • ブラウザだけで分析ができるので、ローカル環境を選ばない
 です。そもそも、昨今はデータがどんどん巨大化してきているので、昔のように一旦ローカルにデータをダウンロードしてきて、それから始めるという方法が取れることが少なくなってきました。分析対象データ自体は数MB程度でも、そのデータソースは数TBということがザラです。よって、データ自体は既にクラウド環境にあることが前提です。さらに、じゃあデータがクラウドにあるのならば、それをわざわざダウンロードすることはセキュリティ上よくないよね?ってのが二番目で、どうせクラウドにあるデータは、そのままクラウドの中で分析すれば、データが外に出ないので、分析者がデータセキュリティに余計な気を遣わなくて済みます。三番目は昨今の働き方事情によるもので、GSuiteやOffice365のように、世界中どこにいてもアウトプットできる環境が整ってきた今、データ分析仕事もその例外ではなく、クラウドに全てが揃っていれば、あとはブラウザだけでどこでも仕事ができるというのは、これからの働き方において大きな魅力になり、その結果として優秀な人材確保に繋がります。PCとネットワークさえあればどこでも仕事ができることと、データを持ち歩いていないことが、我々データサイエンティストをデータ分析そのものに集中させてくれます。

では、新しくなった(と言ってもニュースをキャッチし損ねていたのでしばらく前ですが)Google AI プラットホームは、一体何が新しくなったのか。
過去記事:
クラウドでのデータ分析を推奨する理由 (2017/9/8)
googleクラウドにたてた Web Server をセキュアに使う (2017/9/10)

この二本の過去記事では、まずクラウドでデータ分析をすることの優位性を示し、そのあと、当時の道具を使ってどうしたらそういうことができるのか(但し、私の好みの分析環境で)を書きました。具体的には、二本目ではRStudioをGCPで動かし、それをGoogle Accountの認証を通してローカルへ画面だけ持ってくる方法を示しています。ポイントは、「Google Accountの認証をとおして」という部分で、その前提が「データ分析者はセキュリティの専門家ではない」です。セキュリティに詳しいシステムエンジニアならば同じ仕組みをパパッと作ることができるのですが、データサイエンティストはシステムやセキュリティの専門家ではないので難しい。だから、あるそういうところはGoogleさんにお任せしたいんです。

で、今回の新しいサービス「Google AIプラットホーム」は、これがもっと簡単になりました。上記事で書いた方法は、どうしても自分で考えて接続しなければならなかった。Cloud Consoleを立ち上げておくとか、ポート番号を気にしなきゃならないとか、そういう「システム」「ネットワーク」のことを考えなければならなかった。その時点で、データサイエンティストには重荷でした。しかし、新しいサービスはこれを克服し、分析環境を選択するだけで分析環境が立ち上がるようになりました。もちろん、前記事で書いたような、GCPのその他のソリューション(最強DBである BigQuery や、クラウドストレージのGCSほか)ともプロジェクトの中で(つまり、データをプロジェクトに閉じ込めて)利用できるようになっています。

次記事では具体的にJupyter notebook と R と bigquery の環境を作ります。

0 件のコメント: