{Azure Databricks}チュートリアル: ノートブックを使用してデータのクエリを実行する

https://learn.microsoft.com/ja-jp/azure/databricks/getting-started/quick-start
https://azure-recipe.kc-cloud.jp/azure-databricks/
https://learn.microsoft.com/ja-jp/azure/databricks/dev-tools/cli/

-- 1. 前作業

az login --use-device-code
az account show

az version

az configure --list-defaults
az configure --defaults location=japaneast
az configure --list-defaults

az group create \
--name rg9999999 \
--location japaneast

az group list
az upgrade

-- 2. Azure CLI 拡張機能をインストールする

az extension add --name databricks

-- 3. Azure Databricks ワークスペースを作成する

az databricks workspace create \
--resource-group rg9999999 \
--name databricks01 \
--location japaneast \
--sku standard

az databricks workspace list

-- 4. Databricks CLI をインストールする
pip install databricks-cli

token_response=$(az account get-access-token --resource 11111111-1111-1111-1111-111111111111)
export DATABRICKS_AAD_TOKEN=$(jq .accessToken -r <<< "$token_response")

echo $DATABRICKS_AAD_TOKEN

databricks configure --aad-token

https://adb-1111111111111111.11.azuredatabricks.net

-- 5. クラスターを作成する
vim cluster01.json

{
"cluster_name": "cluster01",
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"spark_conf": {
"spark.speculation": true
},
"num_workers": 1
}

databricks clusters create --json-file cluster01.json

databricks clusters list --output JSON | jq .

-- 6. ノートブックを作成する

-- 7. テーブルを作成する

DROP TABLE IF EXISTS diamonds;

CREATE TABLE diamonds USING CSV OPTIONS (path "/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header "true")

-- 8. テーブルにクエリを実行する

SELECT color, avg(price) AS price FROM diamonds GROUP BY color ORDER BY COLOR

-- 9. データを表示する

-- 10. クリーンアップ

-- クラスターの削除

databricks clusters list --output JSON | jq .
databricks clusters delete --cluster-id 1111-111111-11111111

az group list
az group delete \
--name rg9999999 \
--yes