selmertsxの素振り日記

ひたすら日々の素振り内容を書き続けるだけの日記

OCR用のSaaSをアレコレ調査してみた

TL;DR

  • ちょっとプライベートでOCRを使ってみたかった
  • SaaS決定の判断基準は下記
    • 精度、費用、開発のしやすさ ( ライブラリの品質、インフラ設定の工数など )
  • 選定対象のSaaSは次の通り

選定基準

OCRの精度

サンプル4パターン手動で作成し、 OCR SaaSに読み込ませ、正しく読み込めていることを確認する。 ※ 実際に利用したサンプルは非公開です!

開発のしやすさ

OCR SaaSへ読み込ませる際は、GUIからではなくプログラムを作成して実行する。 その過程でOCRする際に必要な準備や、公式ドキュメントの充実、またTypeScriptで提供される型のクオリティなどを確認する

結果

Microsoft Form Recognizer を採用した。 結果を表にまとめたものを下記に記載する

翻訳精度 開発のしやすさ 費用
Microsoft Form Recognizer ○ ( ¥0.2 / 1 page )
Cloud Vision ○ (¥0.2 / 1 page )
Adobe PDF Service ✗ ( ¥6 / 1 page )

検証

Microsoft Form Recognizer

翻訳精度: ○

4パターンのPDFをすべてOCRしたが、一つも誤りはなかった

開発のしやすさ: ○

公式のライブラリはTypeScriptのサポートをしており、説明が十分で迷いなく実装できる。

費用: ¥0.2 / 1 page

価格 - Form Recognizer API | Microsoft Azure

Cloud Vision

翻訳精度: △

  • 罫線を | と読み取ってしまう
  • 1ヶ月 などの文字を 15月 と読み取る
  • 一部の文書を中国語と判断し、誤った文書化をする ( 再現性100% )

開発のしやすさ: △

  • pdf を読み込む際は、gcs(GCPのs3)を利用しなければならない
  • gcsで読み込んだ結果は gcs に出力される
  • png であれば、gcs を用いずにOCR可能
    • そのため利用するならば 見積書をs3だけでなくgcsにもコピーするか
    • pdfをpngに変換しなければならない
  • TypeScriptサポートが貧弱

参考資料: https://cloud.google.com/vision/docs/pdf?hl=ja

コスト: 1000ページあたり ¥206.19

料金 | Cloud Vision API | Google Cloud

Adobe Extract API

翻訳精度: ○

4パターンのPDFをすべてOCRしたが、一つも誤りはなかった

開発のしやすさ: ✗

  • PDFのままOCRができる
  • 出力は Zip で圧縮されてしまう
    • ※ 他のフォーマットもあるかも知れないが、ドキュメントが見つからず…
  • TypeScriptの対応がされておらず、開発者向けのドキュメントも貧弱
  • ちゃんと開発しようと思ったら直接ライブラリのコードをしっかり読み込むしかない

Untitled

コスト: 1ページあたり: ¥6.87

PDF Services API Licensing