{Textract}Amazon Textract でドキュメントテキストの検出

Amazon Textract は、
英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語
で印刷されたテキスト、フォーム、表を抽出することができます。

Amazon Textract は、現時点では
PNG、JPEG、TIFF、および PDF 形式
をサポートしています。

東京リージョンではまだ使用できない。オレゴンで実施。

-- 1. コマンド等のインストール

-- 1.1 aws cli version 2 インストール

curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip"
unzip awscliv2.zip
sudo ./aws/install
aws --version

-- 1.2 jqインストール
sudo yum -y install jq

-- 2. S3 バケットを作成する

aws s3 mb s3://bucket123

aws s3 ls

-- 3. バケットにドキュメントをアップロードする

aws s3 cp test.jpg s3://bucket123

aws s3 ls s3://bucket123 --recursive

-- 4. ドキュメントのテキストの検出

aws textract detect-document-text \
--document '{"S3Object":{"Bucket":"bucket123","Name":"test.jpg"}}'

-- 5. ドキュメントテキストの分析

aws textract analyze-document \
--document '{"S3Object":{"Bucket":"bucket123","Name":"test.jpg"}}' \
--feature-types '["TABLES","FORMS"]'

-- 6. クリーンアップ

-- バケットの削除
aws s3 ls

aws s3 rb s3://bucket123 --force