翻訳ソフト評価記事-翻訳支援ソフト大解剖!
前回のエントリー、「昔書いた機械翻訳の記事について」で紹介した雑誌記事です。今も後継が売られている製品も多いことから企業名は削除、製品名は伏せ字にしました。10年も前の評価であっちがいいの悪いのと言われても開発側も困るでしょうから。
というわけで、前回のエントリーと合わせ、書かれていることと書かれていないことから何を読み取るのかの練習くらいのつもりで読んでください。
ああそうだ。ユーザー辞書を使ったらどうなるかなど、傾向的には今も通用するものがあるはずです。
========アルク『翻訳事典2000年度版』「翻訳支援ソフト大解剖!」
原文を読んでは、カチャカチャと訳文を1文ずつ入力していかなくても、翻訳ソフトをクリック一発、待つこと数分で1日の仕事がすんでしまったらどんなにいいか……そんな幻想を1度や2度は抱いたことがある翻訳者も多いことでしょう。それが不可能だからこそ翻訳者という職業があるんだと思いつつも「せめて能率向上に活用できないか?」とは思いますよね。そこで今回は、翻訳関連ソフトを販売する企業にもご協力いただき、いくつかのソフトを試用・評価してみました。
1.翻訳支援ソフトとは?
翻訳支援ソフトとは、その名の通り、翻訳作業を支援してくれるソフトのことです。広い意味では、対訳形式で翻訳を進められるエディタや複数の辞書をまとめて引いてくれるソフトなども含むこともありますが、普通は、『機械翻訳ソフト』と、翻訳メモリなどとも呼ばれる『翻訳支援ソフト』を指します。
「翻訳」、「ソフト」と聞いて普通の人が思い浮かべるのは、原文を入れれば訳文が出てくる『機械翻訳ソフト』でしょう。これに対して翻訳メモリタイプの『翻訳支援ソフト』は、翻訳をしてくれません。翻訳者が過去に訳した文書をデータベース化しておき、これから訳そうとする文章と似た文章を検索して提示してくれるものだからです。なお、今回の記事では、このような翻訳支援ソフトは『翻訳メモリ』と呼ぶことにします。
翻訳支援ソフトは、どのような人が使っているのでしょうか。
機械翻訳ソフトは種類が多く、パソコンショップに専用の棚があるほどです。価格も1万円以下から20万、30万までとさまざまです。低価格のものは、英語が不得意な人が英語のインターネットサイトを読むためなどに使うことを想定しています。ですから、何が書かれているのかが何となく分かればよく、正確な訳文とか自然な訳文を目指すものではありません。これに対して高価格の機械翻訳ソフトは、製品としての訳文を作ることを想定した作りと機能になっています。このようなソフトは、実務翻訳者に外注せず、社内で翻訳をするために使用されることがあるようです。少数ですが、下訳用に使っている実務翻訳者もいます。
翻訳メモリの方は、実務翻訳者や翻訳会社が対象ユーザです。くり返しの多い文書で真価を発揮するソフトですから、コンピュータマニュアルの翻訳現場に次第に普及しつつあります。
2.翻訳支援ソフトの評価方法
翻訳支援ソフトを評価するにあたり、表1のソフトを各社より貸与していただきました。紙面を借りて感謝いたします。なお、今回の評価は英日のみです。評価したソフトのうち、TRADOSは翻訳メモリ、その他は機械翻訳ソフトです。
表1.評価用に提供を受けたソフトウェア
ソフト名 | 価格(円) |
---|---|
A+専門用語辞書 | 88,000+78,000 |
B+専門辞書 | 97,000+29,800 |
C+全分野専門辞書パック | 346,000+98,000 |
TRADOS Workbench+MultiTerm | 210,000 |
評価に使用したパソコンの主な仕様は、以下のとおりです。新しいHDにWindows95と最低限必要なドライバとソフトのみをインストールした状態で作業を行いました。翻訳ソフト以外にインストールしたソフトは、ATOK11、秀丸エディタ、MS Word97(TRADOSで必要)、IE5.0(BはIE4.0以上が必要)です。(OCRは、スキャナが接続されている別のコンピュータで実行)
表2.評価に使用したパソコンの仕様
CPU | AMD K6-2-300 |
メモリ | 128MB |
HD | E-IDE 4G |
OS | Windows95 |
表示画面 | 1024×748ドット |
評価に使用した文書は、とある技術系企業がユーザ向けに発行しているニューズレターです。いかにもアメリカ英語という調子のよい文章で、英語として読むと楽しくスラスラ読めるのですが、同じようにスラスラ読める日本語にしようと思うと一ひねりも二ひねりもする必要があります。
作業の流れは、以下のとおりです。
スキャナで原文読み込み→OCR→原稿整形(行末の改行削除など)→スペルチェック→翻訳支援ソフトによる処理→後処理
原稿はA4縦の用紙が横方向に3段組された、1ページ約800ワードもあるという字が細かいもので、OCR処理でかなりの認識ミスが発生しました。これを翻訳支援ソフトにかけるために必要なスペルチェックに、1ページ約10分を要しました。つまり、仕上がり400字1枚あたり1.5分、1日20枚仕上げるとすれば30分ほどかかるわけです。
3.機械翻訳ソフトの評価
用語の一括登録
自作用語集(約15000語)から名詞のみ約14000語を抽出し、ユーザ辞書に一括登録しました。不規則変化の複数形は別エントリーとして用語集に登録していたため、すべてを規則変化名詞として登録しました。この方法でも、実質的には不具合は発生しません。
まず、各ソフトの仕様にあわせて、以下のように用語集を整形します((tab)は、タブが入力されていることを表します)。張り付けのくり返しによる整形と一括登録に要した時間は、表4のとおりです。
(用語集)thermistor(tab)サーミスタ
(A)名詞-名詞 サーミスタ(tab)thermistor 0 01
(B)thermistor(tab)サーミスタ(tab)NOUN(tab)thermistors(tab×13)entity
(C)thermistor(n):サーミスタ
Bの所要時間が長いのは、規則変化名詞も単語毎に変化形を指定しなければならないためです。一方、AとCは、一定の記号により規則変化であることを示せばよいため、比較的短時間で終了します。なお、正規表現という文字列のパターンを指定する方法を使って置換すると、用語集の整形作業のうち複数形の指定以外は短時間で行うことが可能で、AとCでは10分かからずに登録できます。
機械翻訳ソフトで翻訳作業中に出てきた新出単語の登録は、どのソフトも簡単に行えるように工夫されています。
翻訳処理の設定
各ソフトとも、訳文スタイル(だ・である調/です・ます調)や、連続するカタカナ語の間に「・」を入れるかどうか、「will」や「shall」の訳し方など、いろいろな項目が設定できます。今回はニューズレターですから、文体は「です・ます調」、英文の種類が設定できる場合は「一般」としました。また、条件を変えてくり返し同じ文書を翻訳させるため、学習機能はオフとしました。それ以外は、デフォルト設定のままです。デフォルトでは、いろいろな部分が「自動処理」になります。
翻訳処理の速度
翻訳処理速度はかなり速く、見る見るうちに訳文が出力されます。1日仕上がり20枚というのは比較的仕事が速い翻訳者の処理量ですが、それが3分くらいで終了します。AとBには、翻訳品質を向上させるためにより深い解析を行うオプションがありますが、それをオンにしても2倍強の時間しかかかりません。
辞書の選択
分野ごとに異なる訳語に対応するため、別売で分野別の専門辞書が用意されています。どのソフトも複数の専門辞書を参照可能で、その際、翻訳処理時間は10~20%ほど長くなります。
専門辞書を入れると訳文はどの程度よくなるのか……実際に使う立場としては、大きな関心事でしょう。そこで今回は、3~4分野の専門辞書を適用し、訳文の質の変化を見てみました。まず、1文毎に3段階評価を行い、文書全体の平均点を算出します。その際、長い文章の点数が大きく評価され短い文章の点数が小さく評価されるように、各文章の文字数で重み付けをした平均としました。その上で、基本辞書のみの訳文の点数で割って、辞書の効用を比較しました。
重み付け平均=((評価点×その文章の原文ワード数)の文書全体の合計)/原文総ワード数
表3.辞書の組み合わせによる訳文品質の変化(基本辞書のみに対する相対値)
辞書 | A | B | C |
---|---|---|---|
基本辞書のみ | 100 | 100 | 100 |
基本+専門 | 81 | 88 | 47 |
基本+専門+ユーザ | 97 | 88 | 91 |
基本+ユーザ | 110 | 149 | 117 |
いずれも、専門辞書を利用すると点数が下がる結果となってしまいました。これは、今回評価に用いた文章が複数の分野にまたがっていたこと、またニューズレターという比較的一般的な文章であったことが原因だと思われます。逆に専門性が高く、1つの専門分野にはまった文書であれば、専門辞書の効果はかなりあると思われます。試しに、全分野の辞書を貸与していただいたソフトで専門辞書を入れ替えて翻訳させてみると、訳語レベルだけでなく文章構造の解釈まで変化するなど、大きな変化が見られます。
間違った分野の訳語が適用されるとかえって訳文の質を引き下げてしまうなど、辞書はたくさん入れればいいというものではないので、くり返し利用しながら辞書選択ノウハウを身につける必要がありそうです。
後処理
さて、機械翻訳ソフトだけで仕事が終わってくれればこんなに楽なことはありませんが、残念ながら(翻訳者にとっては幸運にも?)、そんなうまい話はありません。上記のような簡単な設定による訳文では、間違いなくトライアルに落ちます。そこで、上記比較で最も成績の良かった基本辞書とユーザ辞書の組み合わせによる訳文を使って、後処理をしてみました。
どのソフトも対訳エディタを持っており、原文と訳文を左右に1文ずつ対応させて処理することができます。対訳エディタという形式は、原文と訳文の対照が楽で、とても便利です。表示も、1024×748ドットでは狭くて困るということはありません。
対訳エディタでは、単語レベルで原文と訳文の対応が表示可能です。また、別訳語や別解釈を表示させたり一括置換する機能もあります。原文の構造を指定して再翻訳させることもできます。
このようにいろいろな機能があるのですが、今回は一切使用しませんでした。今回行った後処理は、対訳エディタ上で訳文と原文を読み比べ、必要な修正を訳文に施すというものです。
この場合、機械翻訳ソフトのメリットは、主に省力化になると思います。
- ユーザ辞書に登録した訳語が自動的に入力されている
- 一般的な訳語などが、すでに入力されている
つまり、単語レベルの訳語という材料を出力文の形で一覧しながら翻訳をするというイメージで作業するわけです。この場合特に、ユーザ辞書に登録した訳語が自動的に入力されるのが大きなメリットで、これが確実に行われるなら、クライアント毎に異なる指定訳語を間違う心配がなくなります。
後処理に要した時間の比較は、表4のようになりました。この結果は少々意外でした。実は、機械翻訳の出力翻訳文の品質は、今回の文書と設定では、よかった方からA、C、Bの順だったのです。後処理に要する時間が同じ順番とならずBが頭1つリードする結果となったのは、対訳エディタの編集機能の差が原因だと思います。AとCの対訳エディタの編集機能は、Windows付属のメモ帳程度でしかありません。一方、Bの対訳エディタは、ドラッグアンドドロップによる移動やコピー、単語単位の選択、複数回のundo(編集を元に戻す機能)など、最低限の機能を備えています。
表4.機械翻訳ソフトの比較
機械翻訳ソフト | 用語集の一括登録 | 翻訳処理時間 | 後処理時間(相対値) |
---|---|---|---|
A | 128分 | 2.7分 | 100 |
B | 270分 | 2.7分 | 93 |
C | 66分 | 1.6分 | 102 |
注:
- 翻訳処理時間は、仕上がり400字20枚換算
- 後処理時間は、辞書引きなど余分な作業が一切ない条件で測定
なお、多くの翻訳者が普通に行っている翻訳作業との比較を行うため、原文と自作用語集を秀丸エディタに読み込み、秀丸エディタの標準機能だけを使って用語チェックをしながら翻訳を行ってみました。この翻訳所要時間は、AとBの後処理時間の中間となりました。用語チェックが基本的に不要なのに機械翻訳ソフトの後処理の能率が意外に悪いのは、通常の翻訳では「原文だけを読んで」訳文を入力するのに対して、原文と訳文という「2つの文を読んで比べて」訳文を入力すること、およびすべて日本語になっているため指定訳語かどうか判断に悩むことがあるためです。AとCは、対訳エディタの編集機能がさらに足を引っ張ってしまい、所要時間がむしろ長くなってしまいました。しかし、この程度で「用語統一のミス防止」ができるならばいいという考え方もあるでしょう。
機械翻訳ソフトのまとめ
初めて機械翻訳ソフトを使ってみましたが、予想していたよりは使えるソフトだとの印象を持ちました。出力された訳文はお世辞にもまともな日本語と言えないものが多かったのは事実ですが、自分で訳文を入力する際のパーツを提供してもらうと割り切ってしまえばある程度のメリットがあると思います。
今回は、あくまで基本機能しか使っていません。機械翻訳ソフトには、原文と訳文のセットを登録して活用する機能などもありますから、チューニングすれば、訳文の質が向上し、後処理時間を短縮できる可能性もあります。最終的には、かける手間と能率向上のどちらが大きいかの問題になります。
用語集を支給されることが多い人や、自分でクライアント毎の用語集を作っている人は、機械翻訳ソフトの導入にメリットがあるかもしれません。
今回評価したソフトの中で、どのソフトを導入すべきか……判断が難しいと思います。
Bは、対訳エディタが優れていることが大きなメリットでしょう。訳文の評価は低めでしたが、自分が訳文を入力するためのパーツと割り切るなら十分なレベルの訳文を出力してくれます。一方、ユーザ辞書への用語集の一括登録に時間がかかるのが難点です。以前、名詞ばかり4000~5000個の用語集を毎月更新しながら数人で分担翻訳するプロジェクトに参加したことがあります。もしBを使うなら、毎月10時間もかけて用語登録をするか、それとも、5000の用語から追加・修正されたものだけを抜き出して登録するか……いずれにしても気が遠くなる作業が必要になります。
用語集を支給されることが多く、用語の一括登録を何度もする可能性が高いなら、AやCがいいかもしれません。この両ソフトは、今回評価したような基本性能の部分には大きな差はありません。しかし、Cは高価格である分、たとえば、原文・訳文の対訳データベースのファジー検索が可能など、今回の評価では使用しなかった部分がかなり高機能となっています。
最後になりましたが、機械翻訳ソフトの使用には注意が必要です。機械翻訳ソフトを使用すると、なにがしかの日本語が出力されます。でも、出力された訳語は大間違いである可能性があります。間違いではなくとも、その文脈において不適切かもしれません。この点については、十分な注意が必要です。また、出力された日本語に引っ張られず、製品と言える訳文を完成するためには、自分の訳文スタイルが確立されているなど、翻訳者としての基礎体力がついている必要があります。基礎体力のない状態で機械翻訳ソフトを導入することは、翻訳者としての成長を遅らせる可能性もあるため、お勧めしません。
4.翻訳メモリの評価
今回、翻訳メモリはTRADOSのみの評価となりました。
TRADOSは翻訳メモリを管理・操作するソフトであり、TRADOS自体に訳文を打ち込むわけではありません。翻訳作業自体はWordで行います。TRADOSはWordと連携し、原文データを受け取っては翻訳メモリ内の一致する文章を検索して検索結果をWordに返す、また、新しい原文と訳文のセットをWordから受け取って翻訳メモリに登録するというように、Wordの裏で走ります。そのため、実際の翻訳作業では、TRADOS Translator's WorkbenchとTRADOS MultiTerm(用語管理ソフト)、そして編集作業を行うWordと3つのソフトを立ち上げる必要があります。これは、コンピュータにとってかなりの負担になるので、メモリやHDの容量が小さいとかCPUの遅いパソコンなどではきびしいかもしれません。また、不安定だと悪評高いWordを使わなければならない点も、エディタ派の多い翻訳者の間で不評を買っている一因です。この不安定要因を少しでも解消しようということか、OSとしてはWindows NTが推奨されています。
今回のように、文章が短く、くり返しがほとんどないという状態では、TRADOSの真価はまったくといっていいほど発揮されません。せいぜい、登録されている用語が自動的に検索、別窓に表示され、それをクリックするだけで訳文中に取り込めるというだけのことです。そのため、翻訳中は単にWordを使っての翻訳作業という感じにしかなりませんでした。
しかし、試しに、一回翻訳を終了した文章の元文章を読み込んで処理をかけてみると、完全一致の部分は次から次へと訳文が入っていきます。原文を一部変更しておくと、そこで止まって、変更した部分をカラー表示で示してくれます。変更部分が数字の場合は、自動的に新しい数字を入れて完全一致として自動処理されます。確かに、コンピュータマニュアルのようにくり返しが多かったり、何度も改版されていく文書では便利そうです。
TRADOSのいいところは、翻訳メモリの登録や検索が自動的に行われ、ユーザ自身があれこれと操作する必要がほとんどないところです。いずれにせよWordで翻訳作業をしている人ならば、TRADOSの操作により能率が大幅に低下する心配はありません。ただし、ふだん秀丸エディタなどのエディタソフトを使用している人の場合は、Wordを使うこと自体がちょっとしたストレスになります。
TRADOSを導入するとしたら、やはり何といってもくり返しの多い文書、つまりマニュアル系の翻訳が多い人でしょう。かなり高価格のソフトですが、マニュアル系の翻訳が多ければ、能率向上により十分に元がとれるはずだと思います。用語関係の機能もかなり便利です。
| 固定リンク
「翻訳-ツール」カテゴリの記事
- 翻訳者視点で機械翻訳を語る会(2019.01.23)
- アルク『翻訳事典2019-2020』(2019.01.31)
- 翻訳メモリー環境を利用している側からの考察について(2018.05.09)
- 機械翻訳+PE vs. 人間翻訳(2017.02.24)
- 翻訳者が持つ最大のツールは「自分の頭」(2017.02.02)
コメント
>辞書はたくさん入れればいいというものではないので
そうなんですよねえ。
収録語数が多くても訳語選択の解析に失敗すれば
意味ないですから。
crosslanguageのtranserシリーズは専門用語辞書を自動的に選択してくれるオプションがありますが、
専門用語辞書自体が微妙です。。。
投稿: t98907 | 2009年10月18日 (日) 11時25分
結局、ある訳語を使う・使わない、どの訳語を使うなど、判断が必要なことをマシンにやらせることに無理があるのだと私は思います。判断が正しいか間違っているかを判断する手間をかけると、最初から人間が判断した方が早くなってしまいますから。
投稿: Buckeye | 2009年10月19日 (月) 10時52分