コラム 「RPAの気になる話」

無料で試せるAI-OCRをご存知ですか? - UiPathドキュメント処理プラットフォーム

2021.04.16

こんにちは、RPA/AI-OCR担当の竹島です。

RPAとの連携ソリューションとして、AI-OCRへの注目度が高まっています。このコラムでは、AI-OCRの中でもUiPathユーザであれば無料で利用できるUiPath 「ドキュメント処理プラットフォーム」について紹介したいと思います。
 

OCR(Optical Character Recognition/Reader)とは?

OCRとは、手書きや印刷された文字を読み込み、そのデータをExcelWord等に出力することができる技術です。紙文化の根強い日本では、まだまだデータ化されていない情報が大量にあると思いますが、OCR技術を利用することでデータ化されていないこれらの情報をRPAに読み込ませるインプットにすることができます。

 

> RPAセミナー 「紙にもRPA、AI-OCR連携で始める紙業務デジタル化」
 

UiPathでOCR機能を使用する方法

UiPathで、 OCRを活用して画像上の文字をデータ化させる方法は、大きく分けて2通りあります。

  • ① サードパーティOCR製品と連携させる
  • ② UiPath組み込みのアクティビティを使う

UiPathにはOCR機能がある組み込みのアクティビティが様々あり、「ドキュメント処理プラットフォーム」を利用するとそれらのアクティビティをワークフローの中から利用できるようになります。

UiPath「ドキュメント処理プラットフォーム」の使い方

OCRを検討される際、まず市販のAI-OCRアプリケーションの購入を検討すると思いますが、十分な効果イメージや具体的な利用目途がたっていないと、「導入しても本格的に運用するまでに時間がかかる」「関係者で利用イメージがまちまちで検討に時間がかかる、計画が途中でとん挫する」といったことになる可能性があります。

そこでUiPath「ドキュメント処理プラットフォーム」を用いると、OCR技術でどのような業務がどれぐらいRPAで自動化できるのか、現在候補としてあげている帳票や印刷データのOCR製品との相性は大丈夫なのか、そういった疑問を解消し、利用イメージを関係者で確認することができます。しかも、UiPathユーザは「ドキュメント処理プラットフォーム」を無料で利用できます。 

それでは早速利用方法を紹介していきます。

以下の紹介は、UiPath社がブログで紹介している「ドキュメント処理プラットフォーム」の使い方を実検証したものです。UiPathブログUiPath 組み込みの OCR アクティビティを利用するドキュメント処理プラットフォーム」も併せてご覧ください。

注意:「タクソノミーをロード」、「検証ステーションを提示」などのアクティビティを利用するには、v1.6.0 以上のUiPath.IntelligentOCR.Activities パッケージが必要です。 以下の説明で利用している図はStudioのバージョンによりボタンの配置等が異なる場合があります。

今回はサンプルの請求書を読み取り対象としました。データとして抽出したい対象は赤枠で囲った「日付」「請求書No」「名前」「住所」の4つです。

まず、Studioのデザインタブにあるタクソノミーマネージャーをクリックし、起動させます。

タクソノミーマネージャーでは、ドキュメントの各フィールドの詳細を定義できます。下の例ではドキュメントは “Group1”の “Category1” の “Name1” なっていますが、実運用では “財務部” の “請求関連” の “○○請求書” というような分かりやすい名前にします。今回設定するフィールドは「日付」「請求書No」「名前」「住所」の4つです。

タクソノミーマネージャーであらかじめ定義されているフィールドのデータ型は次の通りです。

  • Text
  • Number
  • Date
  • Name
  • Address
  • Keyword
  • Set
  • Boolean
  • Table 

 次に、Studio内でワークフローを作成します。「タクソノミーを読み込み」アクティビティの「分類データ」は読み込んだタクソノミーを出力するDocumentTaxonomy型の変数です。OCRエンジンは複数のエンジンから選択して指定できます。下の例では「Microsoft OCR」エンジンを指定しています。OCRエンジンのプロパティで言語の設定も可能です。日本語の帳票や印刷データを読み取る場合は、言語の設定を”Japanese”に設定しておきましょう。

データ抽出スコープにてフォーム抽出を行います。抽出子は複数アクティビティが存在しますが、今回は「マシンラーニング抽出子」を利用しました。「マシンラーニング抽出子」を利用するには、パッケージ管理から「UiPath.DocumentUnderstanding.ML Activities」をインストールしておきます。

  • ドキュメントパス:読み取る帳票のドキュメントパス
  • ドキュメントテキスト:OCRの読み取り結果が格納されるString型変数
  • ドキュメントオブジェクトモデル:ドキュメントのオブジェクト情報(位置等)が格納されるDocument型変数
  • 分類データ:「タクソノミーを読み込み」アクティビティで設定した変数を指定
  • ドキュメントの種類のID:タクソノミーマネージャーで作成したID、この例では “Group1.Category1.Name1”

注意:マシンラーニング抽出子ではUiPath OrchestratorのAPIキーが必要です。Community版(無償)のUiPath Cloud Platformご利用の場合は一度に読み込めるドキュメントに最大 2 ページかつ 4MB以内という制限があります。 

ワークフローの最後に「検証ステーションを提示」アクティビティを追加します。

「検証ステーション」ではOCRの読み取り結果を人の目で確認することができます(このような人の介在をhuman-in-the-loopと呼びます)。読み取りに失敗している文字や誤認識はここで修正することができます。下の例では「日付」「請求書No」は正しく抽出されていますが、「名前」「住所」は失敗しています。修正した内容は学習され、次からの読み取り精度の向上に寄与します。

今回は「検証ステーション」でワークフローを終了していますが、「抽出結果をエクスポート」アクティビティを続けると、読み込んだデータをエクスポートすることもできます。

サードパーティAI-OCRアプリケーションの利用

UiPath組み込みのOCRアクティビティは以前からありましたが、認識精度など実業務では使いにくいという課題がありました。しかし、今回ご紹介した「ドキュメント処理プラットフォーム」では、認識精度の高いOCRエンジンを選んで使えたり、人の目で確認・修正するプロセスを加えるなど、実業務で使いやすいよう改良がされています。

「ドキュメント処理プラットフォーム」は、OCRエンジンに「Microsoft OCR」「Tesseract OCR 」「OmniPage OCR」などを利用する分には無料で利用できます。ただ、OCRエンジンにはそれぞれ特徴があります。日本語に強い・英語に強い・日英混在に強いといった文字対応に違いがあったり、経理伝票に強い・長文に強いといった得意な文書に違いがあったりします。業務の内容に応じて、サードパーティAI-OCRアプリケーションの利用を検討するといいでしょう(利用可能なOCRエンジンはUiPath 組み込みの OCR アクティビティ一覧」をご覧下さい)。

まとめ

ここまで、UiPath「ドキュメント処理プラットフォーム」の使い方を中心に説明してきました。RPAにAI-OCRアプリケーションを組み合わせることで、これまで諦めていた帳票や印刷データのある業務も自動化の対象として考えることができます。まずはUiPath「ドキュメント処理プラットフォーム」で試してみるというのはいかがでしょうか?

本コラムでは、UiPath「ドキュメント処理プラットフォーム」をご紹介しましたが、別の機会に、サードパーティAI-OCRアプリケーションについても紹介していきたいと思います。

CACでは複数のAI-OCRソリューションを取り扱っています。紙の業務の効率化なら当社までご相談ください

また、「AI-OCR連携で始める紙業務デジタル化」をテーマに、経理部門のためのRPAセミナーを実施しています。お昼の30分で誰でも受講できますので、ぜひお気軽にご参加ください。

> RPAセミナー 「紙にもRPA、AI-OCR連携で始める紙業務デジタル化」

このコラムの執筆者

株式会社シーエーシー
産業ビジネスユニット 産業ソリューション第二部
竹島 瑛帆

2018年に新卒入社。RPAという、企業の生産性の向上に寄与できるテクノロジーを、多様な業界のお客様毎の業務に合わせ提供するPM・開発業務に従事。現在は、開発者育成トレーニングなど、お客様への貢献度をより拡大させるべく活動しております。本コラムを通じて、皆様にRPAの興味を持っていただくきっかけになれば幸いです。

本記事のカテゴリ :RPA技術コラム

ジャンル:AI-OCRUiPath

関連記事

PickUP

本記事に関連するCACのサービスやお役立ち情報をご紹介します。

RPA技術レポート無料ダウンロード

15分で読める「RPAを一人で始めて、会社を巻き込むコツ」(PDF)
15分で読める「RPAを一人で始めて、会社を巻き込むコツ」(PDF)
ダウンロード ダウンロード
RPAで全社的な業務改善をするならCoE導入という選択肢
RPAで全社的な業務改善をするならCoE導入という選択肢
ダウンロード ダウンロード
RPA導入初期につまずかないTips5選
RPA導入初期につまずかないTips5選
ダウンロード ダウンロード