▼2003年 2月 2日 (日)   -- No.[1]

スキャナーって・・・(その1)
 フラットベッドスキャナーが壊れた。電源が入らない。
 2年くらい前に親せきからもらった中古の300dpiのスキャナである。

 で、次のスキャナーをどれにしようか、と考えてみた・・・。

 ちなみに我が家には家庭用のモノクロコピー機、400万/200万画素デジカメと、これも旧型だが2820dpiのフィルムスキャナーがある・・。

 最近のフラットベッドスキャナーは下位機種でも1200dpiもあり、上位機だと2400,3200というのもある・・。しかし紙スキャンでこんなに要るんだろうか・・・。
 パソコンのCPUは2GHz時代になっているがそれはOSやOffice(あ、両方ともマイクロソフトか)の重さへの対応のためにやむを得ない部分もあるし、ある程度の速度がないとXPが動かないわけだけど、スキャナーのそれはちょっと違うんじゃない、というのがぼくの感覚。
 ふつうの写真とかはおおざっぱなスキャンなら画面解像度に合わせて72dpiでいいわけだし、壊れたスキャナーの300dpiで不便を感じることはなかった・・・。1200dpiってその4倍・・・。面積だから16倍、2400dpiだと8×8で64倍のファイルサイズが必要になる・・・。ま、大は小を兼ねるのは事実だが・・・。
 評価サイトの記事を見ても、同様の意見のようで、最近の高解像度はフィルムスキャンでしかその性能を発揮できない、ということだ・・・。

 最近の高性能機の高速読みとりでフィルムスキャンができるんならそれに越したことはない・・、今のフィルムスキャナーはSCSIだし、そのうちたぶん壊れるし、ということでフィルムスキャン機能をいろいろチェックしてみた・・・。

 が、どうもフラットベッドスキャナーによるフィルムスキャンはガラスを透す関係でどうしてもシャープさに欠けてしまうようで、この点はいかんともしがたいようだ。フィルムスキャンは解像度が重要だから今のフィルムスキャナーの2820dpi程度はほしい、となると最低でも2400dpiの機種になる。すると2万円前後の価格のものになる。

 しかし現在動いているフィルムスキャナーのバックアップとして、あるいはその先のメインのフィルムスキャン用として、今、わざわざ性能がやや劣るものを買うだろうか・・。しかもフィルムスキャナーは昨年、ミノルタがパーソナルユースとしては決定的なコストパフォーマンスを誇るScan Dual 3を発売した。このフィルムスキャナーでも手持ちのものと同じ2820dpiである・・。
 しかもすでに銀塩カメラをお蔵入りさせているぼくとしては今以上にフィルムスキャナーを使う頻度は下がってくる・・・。むむむ・・・。
 このさい、読みとり速度の遅さは我慢して今のものを使うこととして、フィルムスキャンは考慮しないで、フラットベッドスキャナそのものの機能で機種選択をしてみるか・・。
 では、そもそもスキャナーで最近、何をスキャンしているだろう・・・。
 う〜ん、思い出せない。

 フィルムスキャナーがあるのでネガを持っている写真をスキャンしなくなって久しいし、実家にあった古い写真を貼ったアルバムはA4サイズのスキャナではスキャンできないのでデジカメで撮影して終わりにしたし・・・。新聞とか雑誌の記事をスキャンというのはたまにはあるが、SCSI接続のスキャナーを起動させるのが面倒(PC再起動)なんでデジカメでというのが多い。
 ネット銀行とかで免許証のコピーが必要なときはコピー機を使っているし・・・。
 
 じゃあ、スキャナーでやりたいことはないのかといわれるとそうでもない・・・。溜まっている名刺を整理したいし、データベース化もしたい。
 うん? 待てよ、それってスキャナーではなくってOCRソフトの話ではないか・・・。それってOCRソフトを購入して(実はOCRソフトは期間限定の体験版しか持っていない・・・)デジカメ画像からでもできるんじゃないのか?

ということでAISOFTの「読んでココ!Ver8」の体験版をインストールして試してみます・・・。結果はそのうち



▼2003年 2月 2日 (日)   -- No.[2]

スキャナーって・・・・(その2)
 ということで、AISOFTのサイトから「読んde!!ココ Ver.8 体験版 for Windows」をダウンロードしてみた。
 体験版は名刺OCR機能は付属していないが、その他の機能は概ね製品版と同じ。
 デジカメで雑誌のページを何枚か撮影してこの画像を取り込んでみる。

 取り込みはデジカメの画像(JPEG)のまま可能。認識をさせるといくつかのまとまり毎に枠ができて、デフォルトではこれらを文字として認識する。画像は画像と認識する。文字として認識した結果はテキストファイルとして保存する。
 WORDがインストールされていればWORDにRTFとして転送できる。この場合、画像もそのまま貼り付く。認識枠を段組みと指定すればEXCELに表として転送も可能。
 ただし実際には読み込み画像の斜め修正を行い(自動で補正してくれるが)、間違った文字を修正していく作業が必要。

雑誌を撮影したデジカメ画像には、OCR処理をするうえでは2つの問題があった。

・ゆがんでいる・・・。雑誌を見開き状態で撮影するのでどうしても見開き部分の盛り上がりが出るが、このゆがみがOCR処理では問題。スキャナーでガラス面に押しつければこれはかなり軽減できるはず。

 床に置いた本を上から撮影すると、画像がどうしても上下で大きさが変わるので長方形ではなく、台形のようになるが、この点は問題にならない。文字の大きさが多少不揃いになるがOCR認識には支障がない。

・暗い、と思ってフラッシュ撮影をするとフラッシュが反射してその部分の認識ができない。これは全体に光をあててスキャンするスキャナーでは発生しない。これはフラッシュを発光停止にしてしまえば問題はない。全体にくらい画像になるが、このままでも取り込めるし、レタッチしてしまってもよい。

・・・どうも決定的にだめなのは最初に記載した本のゆがみのようだ。これを排除するには撮影する雑誌の上にガラス板を置くしかないだろうが、そんなガラス板はないし、あったとしても今度はガラスの反射対策が必要だろう。やはりこれをクリアするにはスキャナーしかない。

ということで、体験版を少しさわったOCR入門者の感想としては、きちんとOCR処理をするにはきちんとした画像とそれなりの補正が必要で、それらを楽に行うには文書の取り込みはスキャナーでやるほうが良さそうだ、という至極まともな結論に達した。

ではそのスキャナーに求められるスペックはどんなものになるか・・・。

スキャナーをソフトも含めたセットで考えるといくつかポイントがありそうだ。


  1. 読み取り解像度:フィルムスキャンを考えないのでOCR処理に必要な400dpiもあればいい。

  2. フィルムスキャン:とはいえ、バックアップとしてその機能が可能な方がちょっといいけど必須ではない。この観点を残すと透過原稿に対応できるCCD方式となり安価でスリムなCISは候補から落ちる

  3. OCRソフト:AISOFTの「読んde!!ココ Ver.8」が好ましいようだ。バンドル版がこのシリーズだとアップグレードで安く入手できるのでいいかも。

  4. レタッチソフト:PhotoShop Ver.6およびPhotoShopElements 1/2があるのでバンドルソフトはどうでもいい。逆にまともなレタッチソフトを持っていないならこれにこだわるべきだろう。いったんスキャンが終了したらレタッチの出来はソフトで決まるし、市販レタッチソフトはその中で相当の乖離がある。

  5. 画像管理:レタッチソフトではなく、複数の文書をまとめてPDFにできるようなソフトがバンドルされているといいなあ

  6. インターフェース:SCSIかUSB。ただしUSB2.0はボードがないし、それほどの数を使うわけでもないのでこだわらない。

  7. その他:紙資料や名刺の取り込みならPFUのScanSnapのようなドキュメントスキャナーもあるが、雑誌など厚いものには使えないのでフラットベッドスキャナーになる



ただし、CCDにこだわっても、フィルムスキャンを完全に諦めれば、デジタル複合機(プリンター、コピー、スキャナー、場合によってはFAX)も魅力的ではある。CIS方式なら2万円台からあるし、CCDも4万弱からあるが、それぞれの機能に専用機に近いスペックを考えると5万円台になるのでちょっと今はいいか、という感じ。もしもコピー機がほしいと思っている場合には十分な候補である。今の家庭用コピー機になんの不満もないが、カラーコピーができない。過去1回交換しただけだが、カートリッジは1万円近くするのでカートリッジが不要な兼用マシンは魅力的である。
 たぶん2,3年後くらいには居間のFAX兼用電話に代わってデジタル複合機が置かれるのだろう。(その頃にはプリンター機能、スキャナー機能もLAN経由で接続したい)
 


▼2003年 2月 2日 (日)   -- No.[3]

スキャナーって・・・(その3)
 EPSONのスキャナーにバンドルされている「読んde!!ココ」に続いてCANONのスキャナーにバンドルされている「e-Typist V.8」の体験版もインストールしてみた。
 定価もアップグレードの価格も2つのソフトとも同じ・・・。

 Webで見ると機能的には「読んde!!ココ」と大きな差はない。ただし、バンドル版と正規版の機能差が少し大きいようである。もっともその差が実際のOCR処理でどの程度必要なものかはわからない。
 「e-Typist V.8」の画面は「読んde!!ココ」とほぼ同じ。
「読んde!!ココ」の体験版で試したものと同じファイルで試した。
最初の読み込みで認識でPCがフリーズした・・・。再起動して同じファイルで試したところ問題なく読めた。認識率に大きな差はないようだ。操作性はほとんど同じようなものだが、これは好みの差で「読んde!!ココ」のほうが良さそう。「e-Typist」ではexcelへの転送がうまくいかなかった。

他のバンドルソフトについても調べてみた。
画像レタッチ系は持っているので、調べたのはファイリングソフト。
画像やOCR処理後のファイルをPDF保存整理したり検索が行えるようなソフトである。
ま、切り抜き派向けのものである。

ところが、CANONはCanoScan5000以上になってはじめて「やさしくファイリングエントリー」が付属する。これはCANONのスキャナーにバンドルされるOCRソフトと同じメーカーのものであり、当然連携もできる。しかし上位機種でないとそもそもバンドルされない・・・。が、調べてみると、ファイリングソフトがなくてOCRソフトのバンドル分だけでこれにアップグレードできるようだ。ヨドバシで12,860円。
 「やさしくファイリング」は体験版があるのでダウンロードしてみた。OCRソフトがなくても一応OCR処理ができるがやはり不十分であり、OCRソフトと一緒に使うもののようだ。

さて、EPSONでは最上位機種でもこの種のソフトはバンドルされない・・・。
あらら・・・。ファイリングソフトは雑誌や本の気になる記事のチェックには必須なんだが・・・。まあ、デジカメ画像をそのまま保存してもいいのだが・・・。

もう少し調べてみると、こんなのがあった・・・。ヨドバシでも売っている(11,680円)。「読んde!!ココ」単体のアップグレードが6,980円だからあと5千円弱で入手できることになる。こっちは体験版はない・・。

ここで整理して比較・・・。






CANONEPSON
OCRソフトe-Typistエントリー読んde!!ココ for EPSON
OCRソフトのアップグレード約7千円約7千円
ファイリングソフト5000以上にバンドルなし
ファイリングソフト
アップグレード
OCRソフト(バンドル)のみで
ファイリングソフトもアップグレード可。
約13千円
OCRソフトと一体販売で
約12千円


ということで、OCR+ファイリングソフトのアップグレード料金はほぼ同じ・・。あえて言えば、EPSONにはバンドルがないので使い勝手を試すことができない、ということになるが、CANONの中位機種でもバンドルされていないのでこれは同じ。ただしこちらは体験版がある。

 なんかいよいよ決めずらくなってきた・・・。


▼2003年 2月 9日 (日)   -- No.[4]

スキャナーって・・・(その4)
 フラットベッドスキャナー選びから、テーマはすっかりOCRソフトとファイリングソフトになってしまっているが・・・。少し使った印象を言えば・・・

当初からファイリングソフトにこだわる必要はないのではないか、という感じ。
ファイリングソフトは主にPDFを中心に画像等の雑多なファイルをグループ化して管理するものである。PDFはもちろん画像等も保存時にコメントをファイリングソフト側で添付することで全文検索が可能になる。

が、はたして素人が自分の趣味の範囲で集めた資料に全文検索をかけるなんて必要があるんだろうか・・・。企業ユースではあるテーマについての経緯や過去の履歴を知りたいとかで議事録などを検索することがあるだろうが・・・。なんらかの情報収集のためであればインターネットで検索するだろう。著作権の問題からネット上に配布されていないデータは除外されることになるが・・・。。

となると新聞や雑誌の記事を後から電子的に参照したいということだけであれば、PDF等のレイアウト再現性のあるファイルにできることそのものが重要な気がする。となればデジカメ画像のままでも良いし、ファイル内での検索が可能なPDFにできればそれで十分だ。
ファイリングソフトは体験版が1つしかなかったので比較はできないが、体験版で使ったものは例えばデジカメ画像のEXIF情報の中身をチェックするような機能はなかった。デジカメ画像についてはEXIF情報内に撮影データはもちろん各種コメントも記載できるのでこのコメントとは別にファイリングソフト用にコメントを付加するのは現実的ではない・・。

ファイリングソフトは新聞記事などテキストベースの情報を本格的に集約して管理し、全文検索するようなことを想定しない限り、あまり必要ないのではないか、ある程度データが溜まって必要になったところで考えればいいのではと思う。

ということでPDFが作れればそれで良い、というのが現段階の結論。

さて、スキャナーに付属するOCRソフトの正規版の体験版(へんな表現だが・・)であるe-Typist、読んde!!ココともPDFファイルの作成ができ、作成したPDFファイル内での文字検索ができる。
PDF作成方法が2つのソフトでは微妙に手順が違い、結果的には「読んde!!ココ」のほうがぼくには使いやすい。本来のOCR機能でも認識用の段落の枠指定の順序変更などの操作性も「読んで」の方が良かった。
加えて、作成されるPDFファイルの大きさも「読んで」の方が多少手順は面倒だが必要にして十分なサイズになる。

ということで「読んde!!ココ」に僕的には軍配をあげたい。


▼2003年 2月22日 (土)   -- No.[5]

まだまだ、スキャナーって
 前回の書き込みで、OCRソフトはPDF書きだしができればいい、なんて書いてしまったが、ちょっと待ったの事実を発見してしまった・・・。

 というのはPhotoShopElements 2では、PDF出力ができるのである・・・。

 しかもPSEの場合は圧縮方式もZIPとJPEGが選択可能で、JPEG圧縮では通常のJPEG保存の場合と同様に、圧縮率も指定できる。この仕様はPSE1でも同じであった・・・。
 なぜ今まで気が付かなかったかというとあほだからであるが、PSE1ではPDF出力が保存時のダイヤログの一部にしか出ていないからで、PSE2ではPDF保存のアイコンができたので気が付いたのである。もっともそのアイコンもいかにもPDF保存という感じには見えなかったのでインストールしてずいぶん使っていたのに気が付かなかった・・・。

 PSE2はPSE1では問題なかったJPEG画像のヘッダー部分のEXIF情報が規定外の書き込みをしており(PhotoShop7本体も同じ)、デジカメ画像をレタッチして保存する場合に、EXIF対応の一部の画像ソフトでEXIFの認識ができなくなる問題があり、「天下のadobeさんがこれでは困る!ぷんぷん」と思っていたところであるが・・・。

 というわけでOCRソフトにおけるPDF出力の差ってあまり大きな差ではなくなってしまった・・・。

 だからというわけではないのだが、まだスキャナーは買っていません。
そうこうしているうちにキャノンがエプソンのGT9700F対抗機種を出してしまいましたね。解像度3200dpiでPhotoShopElements2付き。モデル名の数字もエプソンよりも大きい9900F。同時にキャノンは透過ユニット付きUSB2.0対応の3000Fという安価なのも出してきた・・・。
 これが出る前ならエプソンのGT7300Uに手軽なマウスタイプの透過原稿読み取りセットがいいかな、と思っていたのだが、こちらはUSB1.1・・・。