« OCRの実際~圓生全集から | トップページ | OCRを試す~ソフト・読取革命 »

2013年11月23日 (土)

OCRを試す~圓生全集の状態

 圓生全集を2冊だけ借りました。新版(2冊合巻のもの)です。合巻ですから、間紙が入って目次はそのまま2か所にあります。奥付は一か所だけ。検印が懐かしかったです。
 新版だから校正がされているかと思いましたが、明らかな間違いがそのまま残ってました。

 以前に旧版を借りたとき、状態が悪いため、保護袋に入って貸し出されましたが、こちらも同じでした。ハードカバーによくある、背表紙からの剥離です。それだけ貸し出し回数が多かったのだと思います。図書館のものだからといって手荒く扱われたのでなければいいですね。
Ensyozensyu

 圓生全集を選んだのは、1冊まるまるスキャンするのはたいへんなので、短編集であること。自分の興味関心が今落語にあること。

 読んでみて初めてわかることもあります。去年だったか、ラジオで「ふぐ鍋」という一席を初めて聞きました。内容は、旦那と客がふぐを食べようとするが、怖いので乞食に先に食べさせて安心するが、…という噺です。

 それが「らくだ」のマクラであっさりと語られていて驚きました。「らくだ」の音源はあまり残していないですがこのマクラは使ってません。高座では使ったこともあるということでしょう。

 言葉遣いが特異なのは心配です。かえってソフトの実力を測れるかもしれません。
 どんな言葉づかいかというと、速記なので、読んだらわからないものがたくさんあるのです。例えば「これからやるんですか」「おれがやってやるから」、噺の流れを聞いていればなんでもないのですが、本にするにあたって漢字をそれぞれ”飲”るんですか、”剃”ってやるからとあててあります。でも実際は”やる”といっているわけで、それをルビにして残してあります。

 つまり難しい漢字にルビをふるのではなく、カナを分かりやすくするために漢字をあてているのです。だからOCRするにあたって、ルビを認識することは必須です。

 あと、送り仮名が現行と違います。「驚く」はもれなく「驚ろく」と送っています。「喜こぶ」「障わる」もそうですね。「何んだ」と送っていることもあれば「何だ」と普通のこともあります。

 OCRソフトのアルゴリズムは知りませんが、もし辞書を補正用に使っているとすれば却ってそれがあだとなる可能性があります。

 こういうとき英語OCRのほうがつくづく楽だと思います。スペルの揺れはあっても分かち書きで単語を切り出せるので、すべて辞書に掲載すればいいのですから。日本語はそうはいきません。

 段組みは単純で、縦書き一段。ページ下端に演題とページ数があるだけです。

|

« OCRの実際~圓生全集から | トップページ | OCRを試す~ソフト・読取革命 »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: OCRを試す~圓生全集の状態:

« OCRの実際~圓生全集から | トップページ | OCRを試す~ソフト・読取革命 »