« OCR~青空文庫~html 4 | トップページ | 節分会 »

2014年2月 3日 (月)

OCR~青空文庫~html 5

 青空文庫はもともとプレーンなテキストで見たときに邪魔にならないようにタグを作っています。htmlと比べれば一目瞭然です。

html:<ruby><rb>早桶屋</rb><rp>(</rp><rt>はやおけや</rt><rp>)</rp></ruby>
青空:早桶屋《はやおけや》

 この変換を自動でできるようになったわけですが、青空のHPにはテキスト→xhtmlの自動変換アプリが用意されています。ruby(フリガナじゃなくて言語の)上で動くアプリで、青空サイトのcssに依存するスタイルを使うことになるので、今回の目的とはちょっとズレます。

 でもそんなソフトが既存であるなら、自分のプログラムは性格の違うものにしたい。

 OCRしたテキストを青空テキストに変える際の補助機能をつけることにしました。

 はかいき[#「はかいき」に傍点]の[# ]内のタグをいちいち書くのは面倒なので、“はかいき”と囲んでおけば、自動的に処理。テキストの可読性を少しでも高めるために、タグを後ろに置く形式で。
 青空を逸脱する独自タグを使うことになるので、使用には注意が必要です。

 青空のxhtmlタグのうち、サイトに依存しないのは、フリガナの他に上付き・下付き・組文字だけのようなので、青空テキストから、自動的に後置のタグをおく。落語の文には上付き文字は出てこないでしょうけれど、?!を組み合わせた組文字が1つだけありました。
 手作業でやったっていいのだけれど、一応機能としてもたせました。

 悩んで、サイト依存タグはすべて無視するようにつくりました。第1・2水準をこえる漢字はタグを翻訳して埋め込むことも可能ですが、保留中です。
 依存タグも必要なら変換するのは手間はかかるけど、それほど難しくはありません。将来の課題とします。

------------------------------------------

 青空文庫も、TPPに関連して、著作権保護期間の影響を受けます。50年が70年に延びる、たしかディズニー?…
 江戸川乱歩の著作権切れが近いです。志ん生はあと10年・圓生は15年ですが、20年延びたら私の寿命は超えるでしょうね。

|

« OCR~青空文庫~html 4 | トップページ | 節分会 »

コメント

著作権を著作者とその配偶者に認めるのは分かるのですが、子や孫の代にまで必要なのでしょうか。となると、現代の著作権とは著作者本人の権利と言うよりは「企業の利潤の元の確保」という意味合いが強いのだと思います。

投稿: はろー | 2014年2月 4日 (火) 08時08分

 だれしも金の卵は手放したくないということなんでしょう。ただ企業が絡んで…というのは原作者の意志とは無関係であることになんだかなぁと感じてしまいます。
 保護されていてもそんな期間まで利益をだす作品は本当にわずかなんでしょうけど。

投稿: snob | 2014年2月 4日 (火) 08時48分

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: OCR~青空文庫~html 5:

« OCR~青空文庫~html 4 | トップページ | 節分会 »