« OCRを試す~圓生全集の状態 | トップページ | OCRを試す~ソフト・e.Typist »

2013年11月24日 (日)

OCRを試す~ソフト・読取革命

 さて、実際にソフトを使うにあたって、おまけでついてきた読取革命Liteは、数世代前の、読取革命8にあたる解析エンジンだという情報がありました。さっそく10日間のver15体験版をダウンロードしました。
 Liteはワード形式・テキスト形式2種類の出力ボタンしかありませんが、15体験版はエクセル・パワーポイント・PDF・Htmlなどが加わります。
 今回はテキスト変換を評価します。

 「文七元結」をスキャンして、tiffで保存。実はここで初めてマルチtiffファイルを知りました。ビューワでは1ページ目しか見られないので、MicrosoftのOffice Document Imagingをインストールして…とちょっとした苦労がありました。
 1.tif、2.tif、…19.tifとページごとに保存したファイルを読むと、ここでLiteと15の違いがありました。Liteは1,10,11,12....19,2,3の順に読み込むのです。古い時代のファイルソートです。読み込んでからページを並び替えなければなりません。ファイル名を01,02,03...19にすれば大丈夫です。
 15体験版は、名前をそのままで順番に読み取りました。

 レイアウトを自動設定にして、前頁の文字認識をする手順はほとんど同じです。認識結果に大きな違いが出ました。
 ページの外側までスキャンしたページは、黒い筋が残りますが、それを15は図形枠としてとらえ、Liteは文字に考えて一生懸命無駄な文字を出力するのです。レイアウトした時点で不要なレイアウトを削除しなくてはなりません。どうせテキストファイルにするには、ページ下の演題とページ番号は削除することになりますが、1つ手間が少ないほうがよいです。
 肝心の認識は、あまり変わりません。「文七」の1ページ目を見てください。

Bunshichi

Lite

文七元結 Lももっとい)
昔からよく申しますが、三道楽煩悩なんという、酒に博に遊びという、これ、みな男の道楽としてございますが……五日は名人気質なんてえことを言いまして、お職人やなにかでも、あの人は腕がいいなというと、必ずこの、癖があまして、勝負ごとが好きとか、酒が好きとか女道楽をする、なんかしら道楽があるもんで、それがために、せっかくの腕を持ちながら貧乏して、きゅきゅしてえるてえのがあったもんで……。
子供が親に苦労をかけるという、これ
、あたりまえでございますが、中には親が子に苦労をかけるなんという、始末の悪いのがありまして、
「おい、どうしたんだ、おい、まだ燈火をつけねえのか……なんだ、其処にいるんじゃねえか、なにをしてるんだ、おい」
「なにをして
だじゃないよ (儒衿の袖を眼にあてて、すとひと鼻をすすり) またおまえ・:なんだね、細川の部屋で負られて来たんだね?」
てやでえ、られようてんで取られに行くやつねえや、もうけるつもりで行ったのが

15体験版

文七元結 んしもっとい)
昔からよく申しますが、三道楽煩悩なんという、酒に博奕に遊びという、これ、みな男の道楽としてございますが……五日は名人気質なんてえことを言いまして、お職人やなにかでも、あの人は腕がいいなというと、必ずこの、癖があまして、勝負ごとが好きとか、酒が好きとか女道楽をする、なんかしら道楽があるもんで、それがために、せっかくの腕を持ちながら貧乏して、きゅきゅしてえるてえのがあったもんで……。
子供が親に苦労をかけるという。これ
、あたりまえでございますが、中には親が子に苦労をかけるなんという、始末の悪いのがありまして、
「おい、どうしたんだ、おい、まだ燈火をつけねえのか……なんだ、其処にいるんじゃねえか、なにをしてるんだ、おい」
「なにをして
だじゃないよ (襦袢の袖を眼にあてて、すとひと鼻をすすり) またおまえ・:なんだね、細川の部屋で負られて来たんだね?」
てやでえ、負られようてんで取られに行くやつねえや、もうけるつもりで行ったのが負

 赤文字が誤認識です。15のほうが若干改善。これもページとスキャン状態によっては逆転することもあります。

 大きな問題があって、このページで10箇所にあるルビを完全に無視していることです。ルビは完全に排除するのではなく、時として1行分として変換されることや、隣の漢字と合成されて全く違う文字になることがあります。
 またどちらも”ァィゥ”などの小書き文字を並み文字に判断しています。この全集には撥音・拗音以外にも小書き文字が多用されていて、修正が必要です。
 そして「やンでえ」のような”ン”が小書き文字の大きさで使われていますが、テキストのフォントではそれは使えません。読取革命は”ツ”と判断していますね。

Yomikaku

|

« OCRを試す~圓生全集の状態 | トップページ | OCRを試す~ソフト・e.Typist »

コメント

商品名に偽りあり。ルビを認識できないようでは「革命」とはいえませんね。

投稿: はろー | 2013年11月24日 (日) 11時35分

 まあ、現在の文書はルビはほとんどないですからね。戦前ですと雑誌や新聞にもルビは振られていたような気がしましたが。重視しなかったのでしょう。

 きっと現代のOCRの課題はこの本にはない、レイアウトの複雑さなんだと思います。カラー写真の上に平気で文字をのせたりもします。

 次回用にe.Typistについて検証中です。こいつはルビを認識します。

投稿: snob | 2013年11月24日 (日) 12時15分

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: OCRを試す~ソフト・読取革命:

« OCRを試す~圓生全集の状態 | トップページ | OCRを試す~ソフト・e.Typist »