2019/08/27

新しくなった Google AIプラットホームはクラウド分析環境の決定版か?(実施編)




先の記事「新しくなった Google AIプラットホームはクラウド分析環境の決定版か?(前置き編)」に引き続き、具体的にR×BigQueryの環境をGCPに立ち上げてみます。また、その使い勝手について感想を書きます。

まずはGCPのコンソール画面から、「AIプラットホーム」「AI Hub」を選びます。AIプラットホームは人工知能のカテゴリにあります。

 AI Hubはカタログなので、この中から好みの分析環境を選べばよいのですが、今回は私の好きなRの環境を選びます。AI Hubにはたくさんの環境があるので、ここから探し出すのは結構大変なのですが、まずは AI Hub のトップページから Scope の Public を選ぶと探す画面になるので、一番下の Labels の中から R を探してセットします。

 すると、「Exploratory Data Analysis with R and BigQuery By Google」というそのまんまなエントリが出てくるので、これを選んで、[Open in GCP]しましょう。

「AI Hub からノートブックを開く」のページで、インスタンス名(任意)やインスタンスの地域、ゾーンの設定をして、フレームワークで「R 3.5.3」(現状)を選び、マシンタイプやブートディスクを設定してから[作成]します。地域はまだTokyoは選べないみたいです。

1分程度で「Jupyter Lab」が立ち上がります。すると、「Exploratory Data Analysis with R and BigQuery」というサンプルが立ち上がるので(というより、このサンプルを立ち上げるためのパッケージらしい)、この真似をすればRとBigQueryが使えます。

例えば、隣のタブに「Launcher」があり(もしくは左上の「+」を押す)、その中にR Notebookがあるので、それをクリックすると新しいnotebookが立ち上がります。Rなので、例えばこんな感じ。


BigQueryと繋ぐには、先ほどのサンプル(最初のタブ)の「0.Setup」にある、


を実行すれば、OKです。最初の、installには数分程度かかります。しばらく返ってこなくて不安になるのですが、左上の「+」からConsoleを立ち上げて top などで見てみると、cc1plus がずっと動いているので、インストールに頑張っている様子が見られました。



その後、BigQueryからRへデータを持ってくるには、

data <- bq_table_download(
    bq_project_query("my-project", query="SELECT x,y,z FROM `
my-project.test_aihub.reg_sample`")
)

などでOK。なお、my-project がこのインスタンスを立ち上げているGCPのプロジェクト名(ダミー)で、test_aihub が事前に仕込んだBigQueryのデータセット名、reg_sampleがテーブル名、x,y,zがテーブルのカラム三つです。BigQueryではこんな感じ。