OCRによる紙原稿のテキストファイル化
このごろ産業翻訳の仕事はほとんどがファイルで原稿が送られてくる。しかしごくまれに紙しか原稿がないケースがある。また、書籍は完本しかない場合のほうがたぶん多い。
原稿が紙の場合、まずはOCRでテキストファイルにする。テキスト化する手間をかけても、その後、訳語の統一などでもっとたくさんの手間を省けるからだ。手間を省きたかったら手間を惜しまない。急がば回れの典型例である。
実はまた書籍の仕事が始まったので、ちょうど、この処理をしているところである。心覚えを兼ねて手順をメモしておこう。
1. 書籍をA4の紙に片面コピーする
私の場合、書籍ならA3に見開きをコピーする。このとき、130%ほどの拡大コピーとすると(拡大率は本によって異なる)、少し文字が大きく、読みやすくなる。ちなみにコピーは、近所の1枚5円の機械を使っている。
A3のままでは扱いにくいので、スライド式のカッターでA4にしてページ順に並べる。
2. 章ごとにOCR処理をする
章ごと(数ページ~30ページくらいが多い)にスキャナで読み込み、OCRでテキストファイルにする。使っているスキャナはセイコーエプソン GT-X770(古いスキャナが先日、壊れて買い換えた)。ポイントはオートドキュメントフィーダ(ADF)が付くこと。GT-X770にはGT75ADFというADFが付けられる。ADFがあれば数十ページをセットするだけで順番に読み込んでくれるのだ。
使っているOCRソフトはOKReader2000。古いソフトなので今はもう、売られていない。英文のOCRなら、最近のソフトならたいがいはきちんと認識してくれるはずだと思う。一方、日本語はOCRの認識率が実用になるレベルに達していないので、残念ながらあきらめたほうがいい(無理にやると手間ばかりがかかる)。
3. SimplyTermsでファイルの整形をする
OKReader2000の場合、行ごとに改行が入ったファイルができる(他の設定もあるがかえって手間がかかるのでこの形式を選択している)。
これをSimplyTermsの「整形・編集」→「置換(汎用)」→「整形-改行テキスト(英語)」で処理する。こうすると、明らかに段落の分かれ目でない部分の大半について改行がなくなる。ただし、行頭が大文字で始まっているなど、段落の分かれ目である可能性がある部分は改行が残る。
4. 確認しながら秀丸で仕上げ
最後は秀丸でファイルを開き、不要な改行(\n)を半角スペースに置換してゆく。紙原稿をとなりに置き、次の段落の頭を確認して、そこが出てくるまで置換するわけだ。段落の分かれ目の改行は置換をスキップする。
●スペルチェック
認識率がかなり高い英語でも、一部、誤認識が発生する。そのため、OCR後にスペルチェックをかけるという人もいる。私はスペルチェックはかけない。つまり誤認識はほったらかし。理由は、最後は人間が読み取りつつ、1文ずつ訳して行くので、誤認識による間違いがあっても問題にならないからだ。もちろん誤認識のところは一括置換でも置換されないので、きちんとしているにこしたことはないのだが、スペルチェックにかかる多大な手間と問題の大きさを比べると、相対的に問題のほうが小さいというのが私の認識である。
| 固定リンク
「翻訳-ツール」カテゴリの記事
- 翻訳者視点で機械翻訳を語る会(2019.01.23)
- アルク『翻訳事典2019-2020』(2019.01.31)
- 翻訳メモリー環境を利用している側からの考察について(2018.05.09)
- 機械翻訳+PE vs. 人間翻訳(2017.02.24)
- 翻訳者が持つ最大のツールは「自分の頭」(2017.02.02)
コメント
質問です。
最初のステップで拡大コピーするのは、読み取り精度を上げるためですか?
もしそうだとしたら、OCR ソフトを買い換えた方が最終的にはコストダウンになりません?
投稿: baldhatter | 2008年11月12日 (水) 17時19分
コピーする一番の目的は、ADFを使えるようにすることです。これにより、人が手をかけなければならない時間が大幅に短縮されます。コピーせずに本から直接、読み込もうとすれば、1ページずつ、めくっては読み込ませなければならず、かかる時間が大幅増となります。安いスキャナと業務用コピー機ではスピードがまるで違いますから。
コピーの際、拡大コピーとする一番の目的は、字を大きくして読みやすくすることです。拡大コピーしたものは、翻訳の際、モニター横に置いて参照しますし、読み直しのときにも訳文の出力と一緒に持ち歩いて参照します。
なお、拡大コピーとしなくても、コストは変化しません。見開きで1枚、5円のコピー代がかかることに変わりはありませんから。また、等倍でコピーしてもOCRの認識率が落ちるということはまずありません。10年近く前のOCRソフトでも、英文ならそのくらいの認識精度があります。
投稿: Buckeye | 2008年11月12日 (水) 17時58分
> ADFを使えるようにすることです
ああ、なるほど。私自身は老眼がどんどん進んでいるので、
> 拡大コピーとする一番の目的は、字を大きくして読みやすくすること
こちらの目的がいちばん大きいのかと思ってました。
投稿: baldhatter | 2008年11月12日 (水) 20時22分
私も老眼が進んでますけど、紙原稿は補助であり、モニター上での作業が中心になるから、字が小さいなら小さいでなんとかなるはずです。
投稿: Buckeye | 2008年11月12日 (水) 20時42分