AI-OCRはもう不要!?紙の領収書をChatGPTとRPAでデータ化&入力自動化してみました!
こんにちは!
弊社は主に、「クライアント企業様のRPAの導入支援・運用サポート・シナリオの開発支援」を行っております。
さて、この記事をお読みいただいているあなたは次のような悩みを抱えてはいないでしょうか。
・紙の領収書を毎日、経理担当者が手入力しており大変・・・
・紙の領収書をAI-OCRを用いてデータ化しようとしているがうまくいかない
実際、領収書をデータ化するのはOCR技術を用いてもうまくいかない場合が多いです。その原因にはフォーマットが毎回異なり複雑であったり、文字の解像度や多様性などが考えられます。
2024年5月13日に「ChatGPT-4o(ジーピーティーフォーオー/オムニ)」がリリースされました。このアップデートによりChatGPT-4から搭載されている、画像やPDFファイルからテキストデータ化してくれる処理がより高速でかつより正確に行えるようになりました。また、英語以外の言語、特に日本語における性能が大幅に向上しています。しかし生成AIを利用するにも、画像やPDFファイルを1つずつChatGPTにアップロードして、質問を打ち込んで・・・という手間が発生します。私も以前からこれらの作業が非常に手間であると感じていました。
そこでこの記事では、ChatGPT-4oとRPAを用いて紙の領収書を正確に読み取り、自動でシステム入力・データベース化するための手順やコツを、サンプル動画を含めてお伝えします!
はじめに
経理が抱える紙の領収書の問題
現在、数多くの企業で領収書の処理は手作業に依存しています。あなたの会社でも経理の方が紙の領収書を毎日手で打ち込んではいないでしょうか。しかも月末や月初になると急に大量の領収書が社内から集まってきて、入力作業に追われてしまい、時に残業といった経験もあるのではないでしょか。実際、経理担当者が紙の領収書を一枚一枚確認し、必要な情報をExcelなどに手入力するプロセスは時間がかかるだけでなく、疲労や集中力の低下に伴う入力ミスのリスクも伴います。また、手作業による処理はデータの一貫性や正確性を保つのが難しく、不正確なデータが財務報告や経営判断に悪影響を及ぼす可能性があります。例えば、支払金額を一桁間違えてしまったり、支払年月日を領収書処理日と混同してしまうといったことがよく起こります。
このような手作業により生じる問題を解決するために、最近ではOCR(Optical Character Recognition:光学文字認識)技術を導入する企業も増えています。OCR技術は、スキャンした紙の領収書から文字情報を自動的に読み取り、デジタルデータとして取り込むことができます。さらに近年、AI技術の導入による処理能力と読み取り精度の向上したAI-OCRが登場してきています。この技術は一見非常に有用であり、実際に多くの場面で利用されています。しかし、このOCR技術にも大きな2つの問題が存在しています。
1つは、認識精度に限界があることです。 OCR技術は、印刷された文字を高い精度で認識することが可能ですが、手書きの文字や不鮮明な印刷には対応が難しい場合があります。さらに、汚れや破損がある場合には、正確なデータ抽出が困難です。
2つ目は、フォーマットに大きく依存することです。領収書のフォーマットは企業や発行元によって異なるため、汎用的なOCRソリューションでは対応しきれない場合があります。このため、フォーマットごとにカスタマイズが必要となり、導入コストが増大することがあります。例えば領収書や請求書は、発行元によってフォーマットが大きく異なるため、AI-OCRツールでもその効果を発揮できないことが多いです。
↑フォーマットの異なる領収書
たとえ業務効率化のためにAI-OCRを用いたとしてもこのような問題があるため、後でダブルチェックする手間を考えると、人による手入力から抜け出せない会社は少なくありません。
かといって、人手不足も深刻で、デジタル化や省人化が推進される現代社会において、徐々に人による手入力からの脱却を進めていかなければなりません。では、どうすればよいのでしょうか?
最近の生成AIブームや自動化処理の時流により、ChatGPT、もしくはRPAという言葉を耳にしたことがある、もしくは使用した経験があるという方も少なくないと思います。そこで今回私たちは、画像やPDFファイルからの文字認識処理がより高速でかつより正確に行えるようになったChatGPT-4oを用いることで、これらの課題を解決できるのではないか?と考えました。
そしてさらに、RPAと組み合わせることで「紙の領収書を迅速かつ正確に読み取り自動化処理できるのではないか?」と考えたわけです。
そして今回、実際に紙の領収書をChatGPTとRPAで自動化処理してみました。次の章では、実行動画や出力結果を取り上げながら詳しく説明していきます。
実際に紙の領収書を自動化処理してみた結果
RPA実行動画とフローについて
詳細について説明する前に、まずは実行動画をお見せしたいと思います。 以下は、フォーマットの異なる紙の領収 書1と領収書2(.png)を、一連の流れでテキスト化するシナリオです。
↑領収書1画像
↑領収書2画像
↑RPA実行動画
↓ChatGPTが出力したテキスト
・領収書1
以下の領収書の情報を抽出しました:
- 支払い年月日:2024年4月11日
- 支払い金額:¥6,808
- 消費税額:¥596
- 登録番号:T30600001014164
- TEL:029-852-8030
- 発行会社もしくは店舗名:株式会社 カワチ薬品 つくば研究学園店
・領収書2
以下の情報を抽出しました:
- 支払い年月日:令和6年4月20日
- 支払い金額:¥5,500
- 消費税額:¥479
- 登録番号:T7011301009020
- TEL:029-847-7521
- 発行会社もしくは店舗名:南筑波ゴルフ場
最後までご覧いただけましたでしょうか。今回の処理は、以下のような流れとなっています。
ここで人は事前に、画像やPDFの領収書を特定ファイルに保存しておいた状態でRPAを実行するだけです。
あとはRPAが紙の領収書をChatGPTにアップロードし適切な質問をすることで、ChatGPTのアウトプットとしてテキスト化されたデータが得られたり、処理を行った結果が得 られます。
そしてその後、RPAによりシステム入力やデータベース化ができるというわけです。動画中ではExcelに入力していましたが、自社ソフトに入力することも可能です。
今回、ChatGPTに投げかけた質問は以下の通りです。
この領収書の中から、以下の項目を以下の形式に追記する形で抽出してください。
・支払い年月日:
・支払い金額:
・消費税額:
・登録番号:T
・TEL:
・発行会社もしくは店舗名:
このように出力フォーマットを指定することで、この後RPAで特定の情報を得ることが容易になります。
うまくいかないときは質問の仕方と解像度を変えましょう!
先ほどのサンプル動画中の出力はうまくいきましたが、1回成功しただけでは不十分では?と思われたかもしれないので、領収書2に関して新たに500回ほど実行してみました。すると、数回だけ登録番号が少し異なる出力をしました。以下は異なる出力結果の一部です
異なる出力結果
以下の情報を抽出しました:
- 支払い年月日:令和6年4月20日
- 支払い金額:¥5,500
- 消費税額:¥479
- 登録番号:T70011300109020
- TEL:029-847-7521
- 発行会社もしくは店舗名:南筑波ゴルフ場
計500回試したところ、成功率は約87%でした。このままではとても実業務に使用できる安定性はないので、この確率をできるだけ100%に近づけるために以下の変更を行い何度も試してみました。
変更①:質問を追加
変更①として、 ChatGPTに質問する内容を追加してみました。登録番号のみを誤って読み取っていたので、今回は
『特に登録番号は間違えやすいので正確に読み取って』
という一文を先ほどの質問に追加してみました。
変更②:解像度を上げる
変更②として、もう少し写真の解像度を挙げてとってみることにしました。具体的には、これまでの領収書1画像は1200×900pxでしたが、これを3264×2448pxにして取り直してみました。
変更①のみ、変更②のみ、そして変更①と②の両方を行ってみました。それぞれ先ほどと同様に500回試したところ、成功率はこのようになりました。
このことから、ChatGPTの出力精度を高めるには、質問の仕方と解像度が重要です。なので、一度試してみてうまく読み取ってくれない項目があるときは、間違えやすい項目を正確に読み取るよう指示をすることや、またはカメラ解像度の高いスマートフォンで取り直すなど、解像度をあげて再度撮り直してみてはいかがでしょうか。
このように工夫をすることで出力の精度を高めることができますが、今回のように何回やっても正しい出力をしてくれるとは限りません。ですが、これは人間による作業でも同じことが言えます。なのでどうしても間違えたくないという方は、何回か試してみて不確定要素があるときには、その項目を人間がダブルチェックすることをおすすめします。ある程度、生成AIの不安定性も考慮するべきということです。かといって、すべての文書を人間がチェックするのは二度手間となってしまいます。そこで例えば、同じ文書を5回連続で入力するフローにしてみて、すべて正しい出力をした際は人間によるチェックはなしとし、1回でも1文字単位で間違いが起こったら人間によるチェックを後で行うといった流れにすると、人間によりチェックする手間も削減できると思います。
次の章では、この自動化作業を取り入れると具体的にどのぐらいの効果があるのかを説明します。
領収書の自動化処理を導入すれば年60万円もお得に!
さて、先ほどの自動化処理を取り入れると具体的にどのぐらいの効果があるのでしょうか。ここでは、以下のような会社が領収書の自動化処理を導入した想定して進めていきます。
・従業員300人程度で経理が5人の中規模企業
・一日の領収書作業時間:は約3時間
・毎日一人当たり100枚の領収書を手動入力している
・1人当たりの時給は1,500円/時間
まず、経理1人当たりが1日に領収書作業に費やす費用は、1,500×3=4,500円です。5人いるのですから、この会社では領収書作業に1日当たり4,500×5=22,500円費やすことになります。これは月額にすると22,500×20=450,000円、年間にすると240×22,500=5,400,000円になります。
一方、先ほどの自動化処理を取り入れた場合、1枚あたりに費やす時間を平均1分であると仮定すると、100枚を処理するのに約1時間半、5人分の500枚を処理するのも6時間程度で完了します。5人では1日当たり合計15時間要していたのですから、9時間も短縮できることが分かります。
さらに、費用面ではRPAの初期導入費用を100,000円、月額の維持費用を300,000円、この自動化処理を作りメンテナンスするのにかかる時間を200時間とすると、初年度は年間で
100,000 + 300,000×12 +200×1,500=4,800,000円
より月額費用は400,000円となります。これより、初年度で導入後では月額50,000円、年間600,000円分も費用対効果が高いことが分かります。もし2年目以降も継続して使うのであれば、初期費用や自動化処理を作る時間分がかからないので、さらに費用対効果は高まります。
このように、請求書の自動化処理を取り入れることによって時間短縮だけでなく費用対効果が高まることを感じていただけたでしょうか。今回は中規模企業を想定しましたが、もし大規模企業であればさらに多くの経理がおり1日当たりの作業時間や時給も多いので、さらなる効果が見込まれるでしょう。
記事全体のまとめ
いかがでしたでしょうか。本記事ではChatGPTとRPAを組み合わせることで紙の領収書を自動化処理する検証を行いました。その結果、読み込ませる画像の解像度を上げることやChatGPTに質問する内容を追加することで出力精度が増加することがわかりました。費用対効果の面やツールの特性から考えると、既存の手動入力やOCR技術よりは効果的であると考えています。
今後、生成AIはますます利用されると考えられています。きっとChatGPTもアップデートを重ねてさらに精度が高まっていくでしょう。ですが今回のように生成AIを利用する際にはその 不確定性を考慮し、適切に運用していくとよいと考えます。
ご相談はお気軽に「RPA運用サポート.com」まで!
・自社の業務はRPAで自動化できるだろうか、、
・自社でもRPA活用を考えているけど、どのツールが適しているのだろうか、、
・経費請求を自動化したいけど、どうすればいいかな、、
などなど、RPAについて、あるいは自動化業務作成について、少しでも気になることがある方へ。
弊社では、「MICHIRU RPA」を活用した「個別対応型のサポート」を行っています。お気軽にお問い合わせください。
また、詳細なRPAツールの選定ポイントや活用事例、自動化対象業務の洗い出し方法など、RPAの実践ノウハウをまとめた、弊社の代表が執筆した書籍もございます。
ご一読いただければ、どのように組織としてRPA運用を成功に導けるか、きっと多くのヒントが得られることでしょう。