« 梅屋敷跡 | トップページ | OCR~青空文庫~html 2 »

2014年1月29日 (水)

OCR~青空文庫~html

 結局 e.Typist を買いました。以前に比較レポートを書いたOCRソフトです。バージョンアップ版なので廉価でしたが、使いもしない旧バージョンを一度インストールしないといけません。

 フリガナつきの書籍をスキャンしたとして、OCRをかけてどう処理するか。いくつものフリーのビューワーがある青空テキストにするのは望ましいことでしょう。テキストでは表現しきれないいろいろな組版処理をタグで記述できるのは青空テキストです。ビューワのない環境のためにhtml (xthml)テキストも欲しいところです。(ガラケーなど)

 実際、青空文庫ではその両方の形式で公開してます。そして青空のビューワーの多くがhtmlテキストを縦書きにして読むことができます。

 その線にそって二つのテキストをどう作るかが今回のプログラミングの課題です。

 ただ、青空テキストは問題を抱えています。いまどきshift-JISの文字コードと決められています。だから表示できない文字が今やたくさんあるんです。古いテキストエディタとの互換を考えてのことでしょう、表示できない文字を指定するタグも用意され、ビューワーではちゃんとそのタグを漢字に置き換えてくれるのですが、テキストエディタで校正・編集するときに、タグは邪魔でしかたありません。

 [#「てへん+劣」、第3水準1-84-77] こんなんが文中にあったら… ま、あんまりでてこないですけどね。

 e.Typist は先にも書いたとおり、ルビの認識力はよいと思います。そのルビをテキストにするときに( )で囲んで文に埋め込みます。(ワード形式ではルビのまま)

 この”( )”のままでは、ルビじゃない( )と区別できませんから、設定で青空のルビタグである”《》”の記号で囲むように設定します。

 円生全集の「真田小僧」にOCRをかけたのが下の状態です。(自動で傾き処理をしたり、手作業で誤変換を生む汚れを消したり)

 右側の変換されたテキストの画面に、ルビの画像がずれてはいますが表示されているので、編集が楽です。ルビは小書き文字「ょぅ」では印刷されていないので、原本と見比べたいところですのでその要求を満たしてくれます。

Ocr

 また、ボタンを押すと、左のスキャン画像のほうに判断したテキストを表示してくれます。しかも文字がそろうように行の長さにあわせています。

 この画面であまり位置が合っていないように見えるのは、”「(”の縦横置きの大きさが違うのと、フリガナが入っているからです。その分ずれています。

 校正の段階はフリガナを挿入しないで、校正が終わってからフリガナを挿入するという簡単なことができません。フリガナの設定を変えると、文字変換を初めからやり直すので、また誤変換もやり直してくれるんです…

 ま、なんとか校正が済んだとして、(済んだと見えて1度で終わるためしがありません)、この状態のテキストにフリガナに関してすることが一つあります。漢字連続の一部にフリガナを付けるのに、|タグを埋める作業です。

 まだ青い素人《しろと》浄瑠璃|玄人《くろと》がり
 器量を|そ《ヒョ》んなに

 あと、”霧の|ロンドン警視庁《スコットランドヤード》 ”とカナと漢字にまたがってルビを振るのにも使います。

 今回の「真田小僧」では該当するのは4か所だけでした。それくらいなら手作業も苦になりません。

|

« 梅屋敷跡 | トップページ | OCR~青空文庫~html 2 »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: OCR~青空文庫~html:

« 梅屋敷跡 | トップページ | OCR~青空文庫~html 2 »