{Azure Databricks}チュートリアル: ノートブックを使用してデータのクエリを実行する

 

https://learn.microsoft.com/ja-jp/azure/databricks/getting-started/quick-start
https://azure-recipe.kc-cloud.jp/azure-databricks/
https://learn.microsoft.com/ja-jp/azure/databricks/dev-tools/cli/

 

-- 1. 前作業

az login --use-device-code
az account show

az version

az configure --list-defaults
az configure --defaults location=japaneast
az configure --list-defaults

az group create \
--name rg9999999 \
--location japaneast


az group list
az upgrade

 


-- 2. Azure CLI 拡張機能をインストールする

az extension add --name databricks

 

-- 3. Azure Databricks ワークスペースを作成する

az databricks workspace create \
--resource-group rg9999999 \
--name databricks01 \
--location japaneast \
--sku standard

az databricks workspace list

 

 

-- 4. Databricks CLI をインストールする
pip install databricks-cli

 

token_response=$(az account get-access-token --resource 11111111-1111-1111-1111-111111111111)
export DATABRICKS_AAD_TOKEN=$(jq .accessToken -r <<< "$token_response")

echo $DATABRICKS_AAD_TOKEN

databricks configure --aad-token


https://adb-1111111111111111.11.azuredatabricks.net

 

 

 

-- 5. クラスターを作成する
vim cluster01.json

{
  "cluster_name": "cluster01",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 1
}


databricks clusters create --json-file cluster01.json

databricks clusters list --output JSON | jq .


-- 6. ノートブックを作成する

 


-- 7. テーブルを作成する

DROP TABLE IF EXISTS diamonds;

CREATE TABLE diamonds USING CSV OPTIONS (path "/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header "true")

-- 8. テーブルにクエリを実行する

SELECT color, avg(price) AS price FROM diamonds GROUP BY color ORDER BY COLOR


-- 9. データを表示する

 


-- 10. クリーンアップ

 

-- クラスターの削除

databricks clusters list --output JSON | jq .
databricks clusters delete --cluster-id 1111-111111-11111111

 


az group list
az group delete \
--name rg9999999 \
--yes