エンタープライズ企業のための「次世代RPA」メディア

OCRの精度を上げるために複数製品を並列で使うテクニック~マイクロソフトとAutomation Anywhere

2020/05/30 コラム



 RPAで自動化したい業務のうち、約半数は紙データをデジタル化するタスクが含まれているといわれている。たとえば、現在話題になっている新型コロナをうけての定額給付金関連業務は、突発的に増えた紙業務の典型であり、RPAOCRでカバーしたい内容である。そのため主要なRPAソフトウェアではOCRエンジンが内蔵されていたり外部連携できたりするものが多数存在する。

デジタル化したい紙業務が多い一方でOCRの精度が課題

 しかし、一方で現在出回っているOCRAI-OCRでは、まだ完全な精度を期待するのは難しいともいわれている。従来からあったOCRの技術に加えて、近年ではAIによる学習機能や文字の周りの情報から読み込む文字列にどういう意味があるのかを理解することで精度をあげるAI-OCRの技術が登場し、認識精度が90%95%を超える製品も出てきているが、それでもA4一枚400字を読み込むと10文字程度は誤認識が発生してしまう精度である。ちなみに、OCRベンダーが発表している精度の数字は、あくまでも理想的なテスト環境下での数字なので、実際の運用環境でその精度が出るとは考えないほうがいい。

 また、OCRエンジンにはそれぞれ得意分野、不得意分野が存在し、表組の中の文字が読めるもの/読めないもの、手書きが得意なもの/読めないもの、英数字だけは精度が高いもの、あらかじめ与えられた定型フォームに関しては強いもの、など、様々な特徴がある。そのためひとつのOCRエンジンですべての業務に対応することは実質難しいと言ってよい。

複数のOCR製品を活用しての得意分野をカバーし合う事例

 それではどうすればよいだろうか。OCRエンジンの精度が不完全だとしても、なるべく人間の業務は軽減したいだろう。通常の商談における製品選定では、単一のOCRエンジンを選択して実装することが多いのだが、ここは発想の転換を行うべきだろう。人間でも厳密さを要求される業務には複数人で精度のチェックをするはずである。その時には、各人それぞれの目の付け所によりチェックを行い精度が向上することになる。

 OCRでも同様に考えて実装した事例がある。英国の国民保険サービス (NHS) では新型コロナ禍で世界保健機関 (WHO) に症例報告書を125万件提出する業務が突発的に発生し、90名の医療スタッフで何週間もの間深夜0時を過ぎるまで残業をして処理をしていて、医療スタッフは心身ともに限界に達していた。そこでオートメーション・エニウェアでは、パートナーであるSBLと組んでRPA、自社で持っているAI-OCRソリューションであるIQ Bot、そしてもうひとつのOCRエンジンであるMicrosoft Cognitive Servicesを使って報告速度と精度を向上させるソリューションをすぐに構築した。これにより医療スタッフはより重要な本来の医療の仕事に専念できるようになったという※。

 以下のワークフローは、処理のワークフローを図式化したものである。症例報告書はIQ BotMicrosoft Cognitive Servicesの両方に並列にかけられる。IQ Botは表形式や、その中のチェックボックスの認識を得意としている。一方、Microsoft Cognitive Servicesは手書き文字の読み取りを得意としている。これらの両方のエンジンの力を合わせて、1つのOCRでは達成できなかったシナリオを達成している。

: 新型コロナウイルス症例報告書読み取りソリューションのワークフロー
提供: オートメーション・エニウェア

 

様々なOCRエンジンの組み合わせで可能性が広がる

 このようなOCRエンジンの組み合わせ事例はさまざまなケースで活用例が広がりそうである。日本市場では最も広く一般的に普及しているABBYYのエンジン、大手クラウドベンダーが提供するOCR APIであるAmazon Computer VisionMicrosoft Computer VisionGoogle Vision、そして国産のスタートアップが提供し日本語手書きが強いとされるAI insideDX Suite、シナモンのFlax Scanner、コージェントラボのTegaki等さまざまなエンジンが利用できる。これらの中には業務で使われる主要なフォームを認識できるものや入力フォームの学習ができるものもある。

 また、オートメーション・エニウェアのIQ BotはこれらのAI-OCRエンジンとはポジショニングが少し異なっており、自前の独自のエンジンは持っておらず、ABBYYAmazonMicrosoftGoogleTegakiといった他社のOCRエンジンを適材適所で切り替えて利用することができる。IQ Bot自身は少しずつ異なる似た書式のフォームの分類と認識、フォームごとに行数の異なる明細表の認識、誤検知のフレキシブルなエラー処理などを得意としており、他のOCRエンジンと異なるレイヤーでの組み合わせにより精度向上に役立つようだ。

 単一のOCRで精度が出なくてお困りの場合は、複数のOCRエンジンやIQ Bot等を組み合わせて精度向上を試みてみてはどうだろうか。

 

Bots in the NHS: a Covid-19 Case Study (SBL)