TL;DR
選定基準
OCRの精度
サンプル4パターン手動で作成し、 OCR SaaSに読み込ませ、正しく読み込めていることを確認する。 ※ 実際に利用したサンプルは非公開です!
開発のしやすさ
OCR SaaSへ読み込ませる際は、GUIからではなくプログラムを作成して実行する。 その過程でOCRする際に必要な準備や、公式ドキュメントの充実、またTypeScriptで提供される型のクオリティなどを確認する
結果
Microsoft Form Recognizer を採用した。 結果を表にまとめたものを下記に記載する
翻訳精度 | 開発のしやすさ | 費用 | |
---|---|---|---|
Microsoft Form Recognizer | ○ | ○ | ○ ( ¥0.2 / 1 page ) |
Cloud Vision | ✗ | △ | ○ (¥0.2 / 1 page ) |
Adobe PDF Service | ○ | ✗ | ✗ ( ¥6 / 1 page ) |
検証
Microsoft Form Recognizer
翻訳精度: ○
4パターンのPDFをすべてOCRしたが、一つも誤りはなかった
開発のしやすさ: ○
公式のライブラリはTypeScriptのサポートをしており、説明が十分で迷いなく実装できる。
費用: ¥0.2 / 1 page
価格 - Form Recognizer API | Microsoft Azure
Cloud Vision
翻訳精度: △
- 罫線を
|
と読み取ってしまう 1ヶ月
などの文字を15月
と読み取る- 一部の文書を中国語と判断し、誤った文書化をする ( 再現性100% )
開発のしやすさ: △
- pdf を読み込む際は、gcs(GCPのs3)を利用しなければならない
- gcsで読み込んだ結果は gcs に出力される
- png であれば、gcs を用いずにOCR可能
- そのため利用するならば 見積書をs3だけでなくgcsにもコピーするか
- pdfをpngに変換しなければならない
- TypeScriptサポートが貧弱
参考資料: https://cloud.google.com/vision/docs/pdf?hl=ja
コスト: 1000ページあたり ¥206.19
料金 | Cloud Vision API | Google Cloud
Adobe Extract API
翻訳精度: ○
4パターンのPDFをすべてOCRしたが、一つも誤りはなかった
開発のしやすさ: ✗
- PDFのままOCRができる
- 出力は Zip で圧縮されてしまう
- ※ 他のフォーマットもあるかも知れないが、ドキュメントが見つからず…
- TypeScriptの対応がされておらず、開発者向けのドキュメントも貧弱
- ちゃんと開発しようと思ったら直接ライブラリのコードをしっかり読み込むしかない
コスト: 1ページあたり: ¥6.87