« OCR~青空文庫~html 2 | トップページ | 「はなまき」を食べました »

2014年1月31日 (金)

OCR~青空文庫~html 3

 今のトピックは、本題のVBプログラムに入れてません。前提の話ばかりをつづけてしまいました。今回も青空リーダーの話題で終始します。

 日本語の文章はやっぱり縦書きで読むほうがしっくりきます。青空文庫自体には円朝の数編しか登録されてませんが、青空文庫リーダーであちこちの落語テキストを縦書き表示されるのが心地よいです。

 いろいろな(無料)リーダーを試してみました。美しいのはAIR草子かな。PageOneもなかなかです。
 ルビの振り方も様々です。アイディアではVirtualbook。青空文庫の《》でフリガナを指定するやり方では、どの文字にフリガナを付けているのか(=フリガナの位置)わかりません。人間なら一目瞭然ですが、機械には手順が必要です。
 そこでこの作者は、《》の直前の文字の底をフリガナの終わりとしているのです。実に姑息な回避だと感心させられたのです。
 しかし、それだと文字数によっては、フリガナの上のほうに妙な間があくのが残念です。

 他のソフトは真面目に漢字の上にあわせたり、漢字の中央に寄せる、漢字の上下にあわせるなどいろいろ工夫していますが、対象漢字をプログラミングで判定しているはずです。AIR草子なぞは、フリガナが長い場合はそれに合わせて漢字の間を広げて調整します。ビューワーはさらに対象漢字が行をまたぐ、長いフリガナが行頭を超えるなど対応が必要です。

 青空文庫も漢字連続のための|タグがあるのですから、ルビにはすべて指定するルールだったならば、プログラムで処理する・エディタの置換、で対処するのは簡単だったのですが…あえて「そうしない」と宣言しているので仕方ないです。


 さて、見やすいというとタブレットの青空ビューワーです。しかし、私のタブレットはWindows8ですので、アプリが少ない!(MSも正念場ですね)

 ストアで見つかるアプリは4つ。1つは有料、1つは青空文庫からの読み込みだけ。気に入ったビューワーは「Nreader」といいます。これが美しくてよみやすい。(現在はNreader2)

 しかし、未完成で、表示できないファイルやフリガナの振り方に問題がありました。フリガナの開始位置判定を”かな以外”としていたので、…にも振り仮名がついてたりしました。<のような記号の縦書きにも不備がありました。

 おせっかい気質が首をもたげて、リクエストを出したところ、ありがたいことに即応してくれました。次にこの場合は?など何度もメールのやり取りをしてルビ処理が完成に近づいていきました。
 傍点など多様な青空タグはまだ対応していないで、スキップします(表示しないということ)。

 このやりとりをする中で、「あれ?自分にも、青空テキストからhtmlへのコンバータができるんじゃね?」と感じたのです。

|

« OCR~青空文庫~html 2 | トップページ | 「はなまき」を食べました »

コメント

紙の書籍の表記方法は千差万別で、青空文庫は制約のあるなかでそれらをできるだけ正確に表現しようとしているので決まり事が嫌になるぐらい沢山あります(この面倒くささが私が本家青空文庫に参加しない主理由なのですが)。ビューアをプログラミングする方もこれら規則を完全に含んだ上で作成しなければならないので大変だと思います。

投稿: はろー | 2014年2月 1日 (土) 01時39分

 ビューワーがたいへんなのは、縦書きの文字の位置からです。プロポーショナルフォントは横書きがメインなので、左端をそろえて縦書きすると、直線的になりません。"っ"などの小書き文字も左寄りですが、右に寄せたいところ。
 =><…「などは、回転しなければなりません。
 フリガナがページを超えたらどうする?

 その先に、青空タグの処理があります。

 作者の方は尊敬に値しますし、未完成のNreader2も作者が意欲的でこの先が楽しみです。

投稿: snob | 2014年2月 1日 (土) 02時41分

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: OCR~青空文庫~html 3:

« OCR~青空文庫~html 2 | トップページ | 「はなまき」を食べました »