Adobe Scanが登場 Office Lensなど文字認識系アプリと比較してみる

2017年6月4日日曜日

#Android #アプリ

t f B! P L
 Adobeからスキャナーアプリ「Adobe Scan」がリリースされました。Android/iPhoneともに無料で利用可能です。

 スキャナーですから主な用途は、紙や画像中の文字をテキストデータ化することじゃないでしょうか。
 そこで実際に使ってみた使用感と、類似機能を持ったアプリとの比較を書いてみようと思います。
 
 スキャナー系アプリの中で今回登場するのは、

 ・Adobe Scan
 ・Office Lens
 ・Evernote
 ・もじかめ

 以上の4アプリです。すべてAndroid版になります。

※2018年11月21日 加筆修正しました


Adobe Scan


 Adobe Scanはその名の通りAdobe社製のスキャナーアプリです。
 スマートフォンで撮影した写真を取り込んでPDFファイルにするのですが、この時にOCR処理も行うので、出来上がったPDF上の文章がコピーアンドペースト可能になるというものです。

 撮影した写真だけではなく、保存している画像データを文字認識することもできるので、スクリーンショットなどを使うと利用の幅が拡がりそうですね。

AdobeScanのOCR処理
PDFファイルにする際にOCR処理も行う

 使用するにはAdobe IDが必要です。会員登録しログインしなくてはいけません。
 ログイン後はアプリ内でカメラが起動します。このままスキャンしたい物をカメラの範囲内に収めると、文字が認識されれば自動的に範囲を決めて撮影してくれます。手動での撮影も可能です。
 
 撮影されると、Adobe社のクラウドストレージである『Adobe Document Cloud』にアップロードされて、OCRなどのデジタル処理をされ、PDFとしてDocument Cloudに保存されます。

 環境設定で保存の設定を変えられますが、元の画像が保存されるだけですので、PDFを保存したい場合はメールに添付したり他のクラウドサービスに送るしかなさそうです。
 
 実際に使ってみると、リリース当初に起こっていた、ピントが合っていないのに自動撮影してしまうような状況は改善されています。
 ですが、色々テストしてみた結果、認識間違いがかなり多く、日本語の文字認識として使うのには実用的ではなさそうです。
 改行してくれないのも難点ですね。

Office Lens


 似たようなアプリでは、マイクロソフト社の「Office Lens」が思い浮かびます。
 機能的にもほぼ同様で、スキャンしたデータはマイクロソフトらしくWordにテキストとして出力できます。
 逆に言うとWordをインストールしていないと、OCRで認識したテキストをコピーなどで再利用することはできないという事にもなります。
 またOffice Lensもマイクロソフト社のアカウント作成を求められます。

 Adobe Scanの場合はPDFにしてからコピペする必要がありますが、Wordが必要ではあるものの、いきなりテキストを作成してしまいたい場合はOffice Lensのほうが便利かもしれません。
 
 使用感は今のところOffice Lensのほうが上じゃないかと思います。
 角度の補正などAdobe Scanとほぼ同様の機能があります。ただし、自動撮影が以前はできたような気がしたのですが、現在はできないようです。

 後ほど比較もしますが、文字認識もこちらのほうが精度が高いですね。
 以前、A4サイズにビッシリと書かれた紙の文書をOffice Lensアプリでスキャンしたことがありましたが、ほぼ誤字がなく改行なども非常に近いものでした。
 
 Office LensはWordに出力すると文字の大きさや表の罫線なども再現しようとしますので、元の文書に近いものを作りたい場合などに向いているかもしれません。そのせいで変になることもあるのですが・・・

 文字が少し潰れていると、違う文字として認識していまいます。
 面白いのは認識できないと元の画像の該当箇所を切り抜いて画像として表示するという、結構な荒業を見せてくれるんですよね。Wordの文書中に画像を置かれても邪魔な時も多いのですが。

OfficelensのOCR結果
表の上部や表中の色が付いた部分は
文字認識できず画像になっている

比較してみる


 Adobe ScanとOffice Lensのスキャン結果を比較してみたのがこちらです。
 サンプルとして、新潟県南魚沼市の絶景が素晴らしい、「八海山ロープウェー」さんの観光パンフレットをスキャンしてみました。

スキャンした範囲

 まずAdobe Scanでは、全体を撮影すると上手く文字認識してくれませんでした。そこでAdobe Scanの機能で、下の画像のように一部を切り取っています。


 
 スキャンの結果です。上がコピーできた範囲。下がペースト後のテキストです。

AdobeScanでのOCR

文字認識できていない場所があるのがわかります。画像の端も文字として認識してしまっているようですが、これはトリミングの仕方によって回避できるかも知れません。

 さすがに実用に向かなすぎるので、先程の画像上のPDFをスクショしたものを認識させるという方法をとってみました。
 その結果がこちら。


若干問題もありますが、かなり良くなりました。Adobe Scanのカメラで撮影して直接文字認識させるより、一旦画像化してそれをスキャンした方がいいようですね。

 続いてOffice Lensです。

OfficelensでのOCR
いきなり違うけど全体的にはまあまあ

 スクショ1画面に収めるために縦長なレイアウトになっていますが、これはWord上で表示を変えただけで実際は元のパンフレットに近い感じで改行されています。
 やはりこのままでは使えませんが、認識精度はOffice Lensの方が高いと言っていいでしょう。

Evernote


 ここからは文字認識する他のアプリについて書いてみます。使い方によっては利用価値があると思います。

 Evernoteは文字のコピペはできませんが、Evernoteアプリにもカメラがあり、撮影したものをOCR処理してノートに保存できます。
 OCR処理はアプリで行うのではなく、ノートとして保存されたあとでEvernoteのサーバーで順次行うようです。これによって、画像内の文字を検索でヒットさせることができるようになります。

 こちらは撮影時の角度や影などの補正が、先のふたつと比べてかなり優秀で、折り目があったり丸まりがちなレシートなどを雑に撮影してもいい感じに補正してくれます。

 EvernoteがOCR処理をするのはノート内の検索でヒットさせるためで、ダイレクトに文字をコピーできないのはちょっと残念ですね。
 ですから使い方としては、毎月届く光熱費や税金などの請求書類などを、どんどんEvernoteのカメラで撮影する事で検索可能なデジタルデータとして保存しておく、といったものになるでしょう。

 また、どうしてもAdobe ScanやOffice Lensでスキャンしたい場合に、あらかじめ角度補正が優秀なEvernoteのカメラで撮影して、その画像を利用するというのも、無理やりですがありかもしれません。

もじかめ


 Adobe ScanとOffice Lensはともに、単体ではスキャナーアプリでしかないので、撮影した文字をテキストとして利用したい場合はちょっと手間がかかります。

 ここまで書いてきたようなメジャーな企業からリリースされたものではありませんが、「もじかめ」というアプリなら、リアルタイムでは文字認識をしてそれをクリップボードに格納することができます。
 
 OCRアプリ・文字認識アプリ もじかめ mojicame
 http://mojicame.net/

 こちらは撮影範囲に映った文字をそのまま文字認識するようで、つまりは端末のディスプレイの大きさによって認識精度が変わってきます。
 小さなスマホでは撮影可能な範囲が狭すぎて使えませんが、6インチ近い大型のスマホやタブレットのような画面が大きな端末であれば非常に使いやすいアプリです。

もじかめ
5.5インチのスマホでもじかめを使ってみる
私の持っている5.5インチディスプレイのスマホで使ってみると、横にした画面半分以下の撮影範囲しかなく、文字認識させるには相当アップにしないといけませんが、なかなかの精度です。

 もじかめのいいところはそのままコピーできるボタンがあることで、クリップボードに今認識した文字をそのまま収納できます。
 たくさん文字の書かれた文書をまるまるコピーするような用途には向きませんが、単語などを撮影してそのまま検索するような場合は使いやすいと思います。

 使ってみると撮影した文字がテキストになるアニメーションが、結構面白くて好きなアプリです。大型のスマホやタブレットをお持ちなら、一度試してみると面白いですよ。
 無料版だと広告が出ますが、99円で非表示にすることが可能です。

まとめ

イラストや図が多い文書をスキャンして文字認識するのは、取り上げたアプリでは厳しいようです。
 陰影などを文字として認識するようなので、文字以外の線があるとそれも無理矢理認識してしまうんですよね。
 文字しかないようなちゃんとした文書であれば、認識精度も上がると思います。

 Adobe Scanは変換精度が厳しいですね。
 生成したPDFがクラウド上に保存されるので、画像ファイルが容量を無駄に食うことがないのがいいのですが。

 文書をまるまるスキャンしたい場合はOffice Lensのほうが優秀だと思います。ただしOffice Lens本体もWordも、アプリのファイルサイズが大きくなりがちなので、容量が少ない端末では敬遠したくなります。

 Evernoteをよく使うかたは、とりあえずEvernoteのカメラで撮影しておいて、そのデータをAdobe ScanやOffice Lensで文字認識するのもありじゃないでしょうか。
 もじかめは上手く認識されるために条件があって用途が狭いのですが、その分手早く文字認識とコピペができます。
 
 駆け足ですが、Adobe Scanを始めとして文字認識アプリの比較でした。頻繁に必要なものではありませんが、何かの折に役に立つ時があるかもしれません。

 関連記事

QooQ