https://docs.aws.amazon.com/ja_jp/glue/latest/ug/tutorial-add-crawler.html
https://dev.classmethod.jp/articles/aws-glue-crawler-view-data-catalog-objects/
-- 1. コマンド等のインストール
-- 1.1 aws cli version 2 インストール
curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip"
unzip awscliv2.zip
sudo ./aws/install
aws --version
-- 1.2 jqインストール
sudo yum -y install jq
-- 2. S3 バケットを作成する
aws s3 ls
aws s3 mb s3://bucket123
-- 3. S3にテストデータアップロード
vim tab1_0001.txt
1,10,AAA
2,20,BBB
3,30,CCC
vim tab1_0002.txt
4,40,DDD
5,50,EEE
6,60,FFF
aws s3 cp tab1_0001.txt s3://bucket123/tab1/tab1_0001.txt
aws s3 cp tab1_0002.txt s3://bucket123/tab1/tab1_0002.txt
aws s3 ls s3://bucket123 --recursive
-- 4. ポリシーの作成
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
"s3:GetObject",
"s3:PutObject"
],
"Resource": [
"arn:aws:s3:::bucket123/*"
]
}
]
}
aws iam create-policy \
--policy-name policy01 \
--policy-document file://policy01.json
-- 5. ロールの作成
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Principal": {
"Service": "glue.amazonaws.com"
},
"Action": "sts:AssumeRole"
}
]
}
aws iam create-role \
--role-name role01 \
--assume-role-policy-document file://role01.json
-- 6. ポリシーをロールにアタッチ
aws iam attach-role-policy --policy-arn arn:aws:iam::999999999999:policy/policy01 --role-name role01
aws iam attach-role-policy --policy-arn arn:aws:iam::aws:policy/service-role/AWSGlueServiceRole --role-name role01
-- 7. データベースを作成する
aws glue create-database \
--database-input '{"Name": "test"}'
aws glue get-databases
aws glue get-database \
--name test
-- 8. クローラを作成する
aws glue create-crawler \
--name crawler01 \
--role arn:aws:iam::999999999999:role/role01 \
--database-name test \
--targets '{
"S3Targets": [
{
"Path": "s3://bucket123/tab1/",
"Exclusions": []
}
]
}' \
--schema-change-policy '{
"UpdateBehavior": "UPDATE_IN_DATABASE",
"DeleteBehavior": "DEPRECATE_IN_DATABASE"
}' \
--recrawl-policy '{
"RecrawlBehavior": "CRAWL_EVERYTHING"
}' \
--lineage-configuration '{
"CrawlerLineageSettings": "DISABLE"
}'
aws glue list-crawlers
aws glue get-crawlers
aws glue get-crawler \
--name crawler01
-- 9. クローラを実行する
aws glue start-crawler \
--name crawler01
aws glue get-crawler \
--name crawler01
-- 10. クローラが作成したテーブルを表示する
aws glue get-tables \
--database-name test
aws glue get-table \
--database-name test \
--name tab1
-- 11. クリーンアップ
-- テーブルの削除
aws glue get-tables \
--database-name test
aws glue get-table \
--database-name test \
--name tab1
aws glue delete-table \
--database-name test \
--name tab1
-- クローラの削除
aws glue list-crawlers
aws glue get-crawlers
aws glue delete-crawler \
--name crawler01
-- データベースの削除
aws glue get-databases
aws glue get-database \
--name test
aws glue delete-database \
--name test
-- ロールの削除
aws iam list-roles | grep role01
aws iam detach-role-policy \
--role-name role01 \
--policy-arn arn:aws:iam::999999999999:policy/policy01
aws iam detach-role-policy \
--role-name role01 \
--policy-arn arn:aws:iam::aws:policy/service-role/AWSGlueServiceRole
aws iam delete-role --role-name role01
-- ポリシーの削除
aws iam list-policies | grep policy01
aws iam delete-policy \
--policy-arn arn:aws:iam::999999999999:policy/policy01
-- バケットの削除
aws s3 ls
aws s3 rb s3://bucket123 --force