« 驚異の受験問題集 | トップページ | OCRを試す~圓生全集の状態 »

2013年11月21日 (木)

OCRの実際~圓生全集から

 やむなくスキャナを買い替えたら、OCRソフトが付属していました。XPのマシンにもやはりおまけのソフトを昔入れたことがありましたが、何度かいじってみただけでした。

 Liteがついたサブセットですが、今のOCRはどんな実力なのか試してみることにしました。対象は、ちょっと触発されたことがあって意地悪な「圓生全集」(青蛙房)の一部です。

 「圓生全集」は2度刊行されました。最初は60年代初め、全10巻でした。数年後にそれを2冊1巻の合巻の形で全5巻+別巻(上・中・下の3巻)を加えました。さらに80年代に追悼篇の1巻です。

 したがってすべてを確認するには、発行年に注意を払わなくてはなりません。二番目の版も版を重ねて80年代の発行が図書館に多くみられますし、館によっては最初の版に90年代の記録がされているのもあって、まず間違いなく誤記入と思われます。

 で、探してみると、埼玉県では県立図書館でもすべては揃いません。別巻が見つからないのです。足立区には新版5巻+別巻+追悼篇とそろいますが、同じ冊数を所蔵する板橋区では最初の版を5巻まで+別巻+追悼篇という惜しい構成です。17冊の文京区ですら網羅していないのです。

 新旧問わなければすべてを持っているのは、都立図書館とその足立区・江東区・品川区・渋谷区・杉並区・墨田区・世田谷区・練馬区・日野市・多摩市・府中市、川越市・狭山市です。(千葉県は横断検索がメンテナンス中)

 といっても、今回は著作権も有効で実験ですから、数冊だけ借りることにして、手近なところで済ませます。

 円生全集は表記に意地悪なところが多々見られるので、OCRソフトの実力次第であとの作業が楽になるかどうか決まります。

|

« 驚異の受験問題集 | トップページ | OCRを試す~圓生全集の状態 »

コメント

 私は「読んdeココ」のスタンダード版を使ってます。人気も高かったソフトですが、今調べたところこのソフトはすでに販売は終了しており、バージョンアップも無いとのこと。今amazonで人気ナンバーワンは「読取革命」という製品ですが、レビューを読むとルビを認識しないとのことで、私の用途ではひじょうに不便です。OCRについては「これ」という決定的な製品は無いようで、今しばらくは「読んdeココ」を使うことになりそうです。

投稿: はろー | 2013年11月21日 (木) 22時01分

 はろーさんに触発されて、OCRにまともに調べ始めました。
 おまけ塾用に問題集を買ってますが、テキスト化すれば単純にページを使うのではなくて、問題を必要・不要で使い分けられるかもしれません。

 文字数と推敲の関係で、ソフトについては2回先に記す予定です。読取革命には見切りをつけてe.Typistを選ぶ予定です。

投稿: snob | 2013年11月21日 (木) 23時54分

 最近は紅葉の取材の為に何度か三四郎池のある東京大学構内に出入りしているのですが、東大図書館ってのは夏目漱石も百年以上前に書いた「三四郎」の中で、「図書館」に啓発を受けたような事を書いてますが、先日の神田古本まつりの取材のあとに、明治大学の図書館を見学したのですが、小石川図書館よりもはるかに広いスペースだったので、大学図書館もチェックしてみる価値はあるのかなと思いました。

 まだ東京大学図書館には入った事がないのですが、調べてみると、なんか日本一の蔵書があるようですね。

投稿: 藪井竹庵 | 2013年11月22日 (金) 09時09分

 大学図書館だけをサーチすることはできます。研究で相互貸借が最も必要な機関でしょう。

 学食と同じように、誰でも入れるとはいっても敷居が高いですが、貸し出しとなると学生・教職員・卒業生のほかにその地域に限って門戸を開いています。たぶん東大も。

 東大だと、史料編纂所の「江戸大地震之図」を公開してくれるチャンスを待っています。実物を見たいです。

投稿: snob | 2013年11月22日 (金) 18時41分

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: OCRの実際~圓生全集から:

« 驚異の受験問題集 | トップページ | OCRを試す~圓生全集の状態 »