https://docs.aws.amazon.com/ja_jp/textract/latest/dg/detecting-document-text.html
https://aws.amazon.com/jp/textract/faqs/
Amazon Textract は、
英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語
で印刷されたテキスト、フォーム、表を抽出することができます。
Amazon Textract は、現時点では
PNG、JPEG、TIFF、および PDF 形式
をサポートしています。
東京リージョンではまだ使用できない。オレゴンで実施。
-- 1. コマンド等のインストール
-- 1.1 aws cli version 2 インストール
curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip"
unzip awscliv2.zip
sudo ./aws/install
aws --version
-- 1.2 jqインストール
sudo yum -y install jq
-- 2. S3 バケットを作成する
aws s3 mb s3://bucket123
aws s3 ls
-- 3. バケットにドキュメントをアップロードする
aws s3 cp test.jpg s3://bucket123
aws s3 ls s3://bucket123 --recursive
-- 4. ドキュメントのテキストの検出
aws textract detect-document-text \
--document '{"S3Object":{"Bucket":"bucket123","Name":"test.jpg"}}'
-- 5. ドキュメントテキストの分析
aws textract analyze-document \
--document '{"S3Object":{"Bucket":"bucket123","Name":"test.jpg"}}' \
--feature-types '["TABLES","FORMS"]'
-- 6. クリーンアップ
aws s3 rb s3://bucket123 --force