« OCR~青空文庫~html | トップページ | OCR~青空文庫~html 3 »

2014年1月30日 (木)

OCR~青空文庫~html 2

 |入れ作業はわずかの時間で、校正は、(とりあえず)数時間で完了しました。以前のサンプルで得意だと感じた小書き文字「ァィゥ…」の認識はやはり完全とはいきませんでした。ルビのせいで誤認識もいくつかあり、作業前にスキャン時のゴミをよく取り除く必要がよくわかりました。その意味で、ページ番号なども消しておきます。

 ほとぼりの冷めたころにまた校正はしなくてはならないでしょう。

 「真田小僧」にはないのですが、青空テキストとして次の作業は、文字飾りのタグ埋め込みです。円生全集では、傍点と●傍点が使われています。青空タグとしてはこんな感じになります。

てまいの方で、はかいき[#「はかいき」に傍点]がよいと申しまして
かんかんのう[#「かんかんのう」に傍点]を踊らせて

 OCRソフトは傍点などは無視します(どちらかというと消しておいたほうが良い)。テキストファイルにしてから、例えば"はかいき"と傍点部分にマークしておいて、あとでタグに変換するのが楽そうです。上のタグは置換しづらいですよね。

 タグは [#傍点]はかいき[#傍点終わり] こんな形で対象部分を囲むやり方がありますから、最初の"を[#傍点]に、次の"を[#傍点終わり]に置換してやればよいでしょう。""では判別が面倒になりますので、前後が明確な “ ” や ‘ ’ で囲めば置換は簡単です。複数のテキストに対して検索・置換のできる良いソフトもでています。

 htmlファイルは、青空文庫に実際に公開するわけではないので、特に必要なわけじゃないですが、自分の秘密のホームページにアップしておけば、ビューワーのない環境でも見ることができます。例えば公共のPCとか、今じゃゲームマシンでアクセスして見られるわけです。

 テキストさえできてしまえばそんなに難しくはありません。

 やっかいな点は、shift-JISだということです。時代が進んで、ありとあらゆる文字が表示できるようになったのに、JIS第1水準、第2水準という小さなエリアにとどまらざるをえません。機種依存文字を使わないのは当然として、「Unicodeが広く使えるようになっていますが、青空文庫の作業では今のところ、これも使いません」としているはファイルの互換性からでしょう。

 あくまでプレーンなテキストエディタで見ることができるために制限を設けているわけですが、現在のテキストエディタは、文字コードもほぼ間違いなく自動判別しますから、そう遠くない時期に変わるのじゃないかと思っています。
 Unicodeだと、こんなの 〽 (歌記号)も用意されてるんですね。

 自分用には文字コードを替えちゃっても問題はないですし。でも青空の規則に従って書けるようにする工夫をするのも面白いかも。

|

« OCR~青空文庫~html | トップページ | OCR~青空文庫~html 3 »

コメント

完全に青空文庫形式にするかは悩ましい問題です。文字コードの問題では本家青空文庫でも論争になっているそうですね。私は基本的には青空文庫形式に準拠しつつ、本家青空文庫には登録しない(自分で勝手にやる)、文字コード等による制約は独自のやり方で対処する、青空文庫のためにつくられた様々なアプリがそのまま利用できるようにする、などの原則で作業しています。

投稿: はろー | 2014年1月30日 (木) 22時37分

>アプリがそのまま

 それって大切ですね。ネットにはさまざまな青空準拠テキストが転がってますし、歩調を合わせることは必要です。

投稿: snob | 2014年1月31日 (金) 01時45分

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: OCR~青空文庫~html 2:

« OCR~青空文庫~html | トップページ | OCR~青空文庫~html 3 »