{Glue}チュートリアル: AWS Glue クローラの追加

https://docs.aws.amazon.com/ja_jp/glue/latest/ug/tutorial-add-crawler.html

https://dev.classmethod.jp/articles/aws-glue-crawler-view-data-catalog-objects/

 

-- 1. コマンド等のインストール

-- 1.1 aws cli version 2 インストール

curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip"
unzip awscliv2.zip
sudo ./aws/install
aws --version

-- 1.2 jqインストール
sudo yum -y install jq


-- 2. S3 バケットを作成する

aws s3 ls

aws s3 mb s3://bucket123

 

-- 3. S3にテストデータアップロード

vim tab1_0001.txt
1,10,AAA
2,20,BBB
3,30,CCC

vim tab1_0002.txt
4,40,DDD
5,50,EEE
6,60,FFF


aws s3 cp tab1_0001.txt s3://bucket123/tab1/tab1_0001.txt
aws s3 cp tab1_0002.txt s3://bucket123/tab1/tab1_0002.txt


aws s3 ls s3://bucket123 --recursive

 

-- 4. ポリシーの作成 

vim policy01.json

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "s3:GetObject",
                "s3:PutObject"
            ],
            "Resource": [
                "arn:aws:s3:::bucket123/*"
            ]
        }
    ]
}

aws iam create-policy \
--policy-name policy01 \
--policy-document file://policy01.json

 


-- 5. ロールの作成

vim role01.json

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "glue.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}

aws iam create-role \
--role-name role01 \
--assume-role-policy-document file://role01.json


-- 6. ポリシーをロールにアタッチ

aws iam attach-role-policy --policy-arn arn:aws:iam::999999999999:policy/policy01 --role-name role01

aws iam attach-role-policy --policy-arn arn:aws:iam::aws:policy/service-role/AWSGlueServiceRole --role-name role01

 

-- 7. データベースを作成する

aws glue create-database \
--database-input '{"Name": "test"}'

aws glue get-databases

aws glue get-database \
--name test

 


-- 8. クローラを作成する

 

aws glue create-crawler \
--name crawler01 \
--role arn:aws:iam::999999999999:role/role01 \
--database-name test \
--targets '{
            "S3Targets": [
                {
                    "Path": "s3://bucket123/tab1/",
                    "Exclusions": []
                }
            ]
        }' \
--schema-change-policy '{
            "UpdateBehavior": "UPDATE_IN_DATABASE",
            "DeleteBehavior": "DEPRECATE_IN_DATABASE"
        }' \
--recrawl-policy '{
            "RecrawlBehavior": "CRAWL_EVERYTHING"
        }' \
--lineage-configuration '{
            "CrawlerLineageSettings": "DISABLE"
        }'


aws glue list-crawlers

aws glue get-crawlers

aws glue get-crawler \
--name crawler01

 


-- 9. クローラを実行する

aws glue start-crawler \
--name crawler01

aws glue get-crawler \
--name crawler01

 


-- 10. クローラが作成したテーブルを表示する

 

aws glue get-tables \
--database-name test

aws glue get-table \
--database-name test \
--name tab1

 

-- 11. クリーンアップ

-- テーブルの削除

aws glue get-tables \
--database-name test

aws glue get-table \
--database-name test \
--name tab1

aws glue delete-table \
--database-name test \
--name tab1

 

-- クローラの削除

aws glue list-crawlers

aws glue get-crawlers

aws glue delete-crawler \
--name crawler01


-- データベースの削除

aws glue get-databases

aws glue get-database \
--name test

aws glue delete-database \
--name test

 

 

-- ロールの削除
aws iam list-roles | grep role01

aws iam detach-role-policy \
--role-name role01 \
--policy-arn arn:aws:iam::999999999999:policy/policy01

aws iam detach-role-policy \
--role-name role01 \
--policy-arn arn:aws:iam::aws:policy/service-role/AWSGlueServiceRole

 

aws iam delete-role --role-name role01


-- ポリシーの削除
aws iam list-policies | grep policy01

aws iam delete-policy \
--policy-arn arn:aws:iam::999999999999:policy/policy01

 

-- バケットの削除

aws s3 ls

aws s3 rb s3://bucket123 --force