{Textract}Amazon Textract でドキュメントテキストの検出


https://docs.aws.amazon.com/ja_jp/textract/latest/dg/detecting-document-text.html
https://aws.amazon.com/jp/textract/faqs/

 

Amazon Textract は、
英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語
で印刷されたテキスト、フォーム、表を抽出することができます。

Amazon Textract は、現時点では
 PNGJPEGTIFF、および PDF 形式
 をサポートしています。


東京リージョンではまだ使用できない。オレゴンで実施。


-- 1. コマンド等のインストール

-- 1.1 aws cli version 2 インストール

curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip"
unzip awscliv2.zip
sudo ./aws/install
aws --version

 

-- 1.2 jqインストール
sudo yum -y install jq


-- 2. S3 バケットを作成する

aws s3 mb s3://bucket123

aws s3 ls

-- 3. バケットにドキュメントをアップロードする

 

aws s3 cp test.jpg s3://bucket123

aws s3 ls s3://bucket123 --recursive


-- 4. ドキュメントのテキストの検出

aws textract detect-document-text \
--document '{"S3Object":{"Bucket":"bucket123","Name":"test.jpg"}}'


-- 5. ドキュメントテキストの分析

aws textract analyze-document \
--document '{"S3Object":{"Bucket":"bucket123","Name":"test.jpg"}}' \
--feature-types '["TABLES","FORMS"]'


-- 6. クリーンアップ


-- バケットの削除
aws s3 ls

aws s3 rb s3://bucket123 --force