OCR用のSaaSをアレコレ調査してみた

TL;DR

OCRの精度

サンプル４パターン手動で作成し、 OCR SaaSに読み込ませ、正しく読み込めていることを確認する。 ※ 実際に利用したサンプルは非公開です！

開発のしやすさ

OCR SaaSへ読み込ませる際は、GUIからではなくプログラムを作成して実行する。その過程でOCRする際に必要な準備や、公式ドキュメントの充実、またTypeScriptで提供される型のクオリティなどを確認する

Microsoft Form Recognizer を採用した。結果を表にまとめたものを下記に記載する

翻訳精度: ○

４パターンのPDFをすべてOCRしたが、一つも誤りはなかった

開発のしやすさ: ○

公式のライブラリはTypeScriptのサポートをしており、説明が十分で迷いなく実装できる。

費用: ¥0.2 / 1 page

価格 - Form Recognizer API | Microsoft Azure

翻訳精度: △

開発のしやすさ: △

pdf を読み込む際は、gcs(GCPのs3)を利用しなければならない
gcsで読み込んだ結果は gcs に出力される
png であれば、gcs を用いずにOCR可能
- そのため利用するならば見積書をs3だけでなくgcsにもコピーするか
- pdfをpngに変換しなければならない
TypeScriptサポートが貧弱

コスト: 1000ページあたり ¥206.19

料金 | Cloud Vision API | Google Cloud