« テクニカルコミュニケーションシンポジウム2010 | トップページ | 書籍の販売にからんで思ったこと »

2010年8月27日 (金)

統計ベースの機械翻訳

テクニカルコミュニケーションシンポジウム2010」でも書いたように、パネルで統計ベースの機械翻訳が紹介されました。

河野さんが使われたスライドは公開されています。

統計ベースの機械翻訳とは、ごくごく乱暴にまとめると、言葉のつながりを解析し、「Aという単語が出てくると、その後ろ(あるいは前)にはBという単語が出てくることが多い」といった統計情報として活用する、ということのようです。

これをさらに乱暴にまとめると、ターゲット原語側のコロケーション情報を用意して活用すると言えるのかもしれません。

今回の話を聞いた印象では、語順が比較的かっちりしている英語などとの相性がよさそうに思いました。これに対して相性が悪そうなのは、語順が融通無碍の日本語。語順は融通無碍でも、ある言葉が前か後ろに「出てくる」というレベルでは同じなので、あまり違いはないのかもしれませんが。

なお、統計ベースだけだと、それなりにターゲット言語らしい文章にはなるけど、極端なことを言えば語順だけそれらしくしてあるものなので、意味のある文章になるとはかぎりません。それでも構造が似ている言語同士ならそれなりになるようですけど。ともかく、そのあたりを補うため、文法的な解析などを行うルールベースを組み合わせるといった工夫も始まっています。

さて、統計ベースの機械翻訳、質はどんな感じでしょうか。

機械翻訳の研究をしている人々のあいだで共通の尺度となっている翻訳の定量的評価があるそうです。ただ、たとえば人間による翻訳をその尺度で評価したら何点以上になるとか、そういう形では使いづらいというか、使えないというからしい。翻訳の評価ですからね。そんなわけであまりはっきりとはわからないのですが、Googleほど大量のパラレルコーパスを持って構造が似た言語同士で翻訳するとそれなりにはなるような、ならないような……

統計ベースの機械翻訳において翻訳の精度を決める要因は、パラレルコーパスと呼ばれる「良質の訳例ペア(原語と目標言語のペア)が大量にあること」。そのため、現在、訳例ペアを大量に持つGoogleのひとり勝ち状態だそうです。ただ、分野などを絞ればずっと少ない用例で精度がぐっとあがるので、翻訳メモリの形でパラレルコーパスを持つ翻訳業界にはチャンスがあるはず。ただ、オープンにしないと多くの人にメリットがある形になりません(と、ここで「オープン」に話がつながるわけです)。

統計ベースの機械翻訳が活用されるようになれば、マニュアル関係など、発注量も単価も半分くらいになるのではないかと河野さんは予想しているそうです。

我々、翻訳者にとってのポイントは、(↓)でしょうか。

  • 本当に「発注量も単価も半分」になるのか
  • そうなったらどうすればいいのか

本当のところどうなるのかは、正直なところ、誰にもわかりません。もちろん、可能性はあるんでしょう。

でも、ねぇ……「良質の訳例ペアが大量にあること」が条件でしょう? ローカリゼーションの翻訳メモリに「訳例ペアが大量にあること」は事実ですし、それが、適用範囲を絞れば効果を発揮するだけの量である可能性は高いでしょう。じゃあ、「良質」は? ソースクライアントからして、「この品質でいいとは思わないが、払えるコストがコストだから仕方がない」と言わしめるレベルが「良質」なのでしょうか。そしてもちろん、パラレルコーパスとそのコーパスを活用して出てくる機械翻訳の出力とを比較すれば、質は、機械翻訳の出力のほうが落ちるわけです。今のレベルから、また一段、落ちた日本語を読まされるわけですね……(--;)

英日翻訳されたものって、日本語のコロケーションとして明らかにおかしいものから、融通無碍な日本語だから間違いではないけれど特に意図がなければ英語とは異なる語順のほうが普通でしょうと言いたくなるものとか、標準的な日本語になって欲しくないなぁと思うものが山のようにあります。それが統計ベースの機械翻訳によって拡大再生産され……標準的な日本語になってゆくんでしょうか……英語的語順・表現は浸食がかなり進んでおり、日本語で書いたり話したりにも使われるようになったものがたくさんありますものねぇ(「いくつかの~」とか)。

トシヨリノグチはさておき。

もし、河野さんが予想した状況が生まれたとして、そのとき、仕事はどうなるのでしょうか。

統計ベースの機械翻訳では対応できない種類の案件は残るでしょう。今、翻訳メモリさえもあまり使われていないようなあたりですね。

今、翻訳メモリ前提で行われている仕事は、かなりの部分が消えるのでしょう(発注量が半分になると河野さんが予想しているのは、ここが消えると考えておられるわけでしょう)。もちろん、機械翻訳のポストエディットという仕事は増えるでしょうけど、それは、翻訳とはベツモノですね。

そのとき、統計ベースを導入した機械翻訳に仕事を奪われた翻訳者はどうすればいいのでしょう。選択肢は(↓)くらいでしょうか。

  • 機械翻訳のポストエディットへ移行する
  • 今、翻訳メモリ前提で行われている仕事の残り半分へ移行する(単価は半分になっている?)
  • 統計ベースを含めて機械翻訳では対応できない案件へ移行する
  • 廃業する

翻訳が好きな人は機械翻訳のポストエディットへ移行したら耐えられないでしょうね。かといって、「残り半分」へ移行しても食べられないのではないでしょうか。今でさえも安い、安いと言われているのですから。では、機械翻訳では対応できない案件へ移行? でも、機械翻訳で代替できるような仕事をずっとしていた人が機械翻訳で代替できない仕事に移行して求められる翻訳を出せるものなのでしょうか。「翻訳メモリは文脈の読み取り・形成に悪影響を与えるか」でも疑問を提出しましたが、そのあたり、どうなのだろうと心配になってしまいます。

|

« テクニカルコミュニケーションシンポジウム2010 | トップページ | 書籍の販売にからんで思ったこと »

翻訳-ツール」カテゴリの記事

翻訳-業界」カテゴリの記事

コメント

そうそう、今回の話などはいかにも「河野節」です。河野さんはこういう話が好きなため、機械翻訳をツールとして使うことに強烈に反対している私とは仲が悪いと思われることが多いようです。

そんなことなくて、むしろ、仲はいいと思っています。河野さんと私が立ち話をしているのを横で聞いて、「もしかして、ふたりは仲、いいの?」と聞いてきた友人もいますから、仲がいいと思うのが私の勘違いということはあまりないだろうとも思います。

世の中の流れを無視して仕事はなりたたないので、河野さんのようにアンテナを立てて流れを察知し、教えてくれる人は貴重なんですよね。で、機械翻訳だろうがなんだろうが、功罪や限界がわかった上で適用しようということなら、それはそれ、でしょう。限界がないかのような言い方で導入を勧める人に対しては、「これこれこういう限界がある」と強く突っ込みますけど、河野さんの場合、そういう話にはなりませんからね。

投稿: Buckeye | 2010年8月27日 (金) 10時13分

井口耕二さんと仲の良い河野です(笑)。井口さんらしい的確なコメント記事を書いてくださり、ありがとうございます。少しプレゼン内容について補足コメントすると(1)統計的機械翻訳では単一の言語の語順にもとづいて「次にくる語(より正確には形態素、語、句のいずれか)の推定を行なう「言語モデル」と、(2)原文と訳文の対応データベース(つまり翻訳業界の呼び方では翻訳メモリ、自然言語処理業界の呼び方ではパラレルコーパス)に基づく原文内の語と訳文内の語の対応付けの確率にもとづいて推定を行なう「翻訳モデル」を組み合わせて、もっとも確からしい語をつないでいって訳文を構成します。

基本的に過去の翻訳データをもとに頻度を頼りに(いわば多数決で)新しい訳を作っていくので、複数の解釈がありうる原文に遭遇した場合には過去の多数決で多かった方の訳を出してきます。前後の文脈を解釈して選択肢を調整する技法はまだ実用化されてません(研究はされているようですが難しい)。もちろん、翻訳現場では原文に複数の解釈がありえるのは日常茶飯事で、翻訳者は文脈を理解したうえで解釈を選択して訳文を構成していきますから、仮に井口さんが上で指摘している語順の自由度に基づく翻訳精度劣化の問題がすべて解消されたとしても、多数決だけで訳文を決めるしかない統計的機械翻訳は、文脈にもとづいた判断ができる人間翻訳者に品質ではかないません。

とはいえ、全然使えないかというと、多数決に一致した解釈でよいときは機械翻訳の出力を活かして使い、多数決が間違ったときは人間が修正をかける、というような使い方をすることで生産性はあがるという意見が、特に欧州の翻訳業界ではすでに共通了解になっているような雰囲気で、おおざっぱに、実務翻訳の生産性は2倍にあがり、同時に翻訳単価は半分になる、という傾向にあると個人的には感じています。

日本語と英語(および韓国語以外の諸言語)の間には「語順の壁」があるために欧州言語間で発揮するほどの高性能を統計的機械翻訳が発揮できないことがすでに周知の事実になっており、日本の翻訳業界では欧米ほど機械翻訳のインパクトが話題になっていませんが、なんらかの技術的工夫により「語順の壁」が克服された場合は、日本や韓国の翻訳業界でも今以上に機械翻訳の活用が検討されると予想されます。

機械翻訳が翻訳者・翻訳業界に及ぼす影響については、井口さんが上に書かれたことに特に異論ありません。もっとこのテーマについて議論する時間と機会が欲しいと思います。TCシンポジウムでは時間がなく、またパネルの趣旨ともずれるのでその話題(機械翻訳の影響)についてじっくり議論できませんでした。というわけで、12月13日のJTF翻訳祭で、そのあたりはじっくり議論する場を設けたいと思います。もちろん、井口さんにもご登壇いただきますよー。皆さん、ご期待ください。

投稿: 河野弘毅 | 2010年8月27日 (金) 11時33分

河野さん、

どうも、補足、ありがとうございます。

そうでしたね、そういう話でしたね。あの日は懇親会~2次会とたっぷり飲んで帰ってきたもので、細かい部分がボロボロ落ちてしまったようです(^^;)

多数決が案外に正しいというのは、ある意味、当然でしょう。言語って、もともとが多数決で意味や解釈や文法まで決まってきたわけだし、これからも決まってゆくもののはずですから。「翻訳が正しいか否かは翻訳後に決まる」( http://buckeye.way-nifty.com/translator/2010/07/post-21af.html )で書いた正規分布っていう話も、いわば、多数決を訳文解釈の部分に適用しているような話です。

機械翻訳の影響も、ホントのところ、どのあたりに限界があるのかとか、少しでも明確化しておいたほうがいいことがいろいろありますね。そういうあたりがはっきりしないと、各自、自分が導入すべきなのかすべきでないのか、判断することができませんから。

JTF翻訳祭でじっくり……は楽しみなんですが、じっくりやる気だったら、セッションの時間、長めのほうがいいかもしれませんよ。私は与えられた枠内でベストを尽くすだけだから、長くても短くてもいいっちゃいいんですけど。

投稿: Buckeye | 2010年8月27日 (金) 11時57分

機械翻訳のポストエディットは、翻訳メモリ以上に能力を落としそうだし、翻訳メモリ前提で行われている仕事の残り半分へ移行しても単価が半分なら食っていけないし、統計ベースを含めて機械翻訳では対応できない案件へ移行しようとしても求められる品質のものをすぐに出せるか、廃業に追い込まれる前に出せるようになる人しか残れない。「廃業」という大きな波がすぐ後ろに迫っているように感じました。

投稿: snafkin | 2010年8月28日 (土) 08時19分

snafkinさん、

幸いなのは、まだ、統計ベースを含めて機械翻訳がどんどん浸食してくる状況にはなっていないことです。そういう事態にいつなるのか(あるいはならないのか)はわかりませんが、今から準備を進めていれば、そうなったときにも対応できるだけの力がついているはずだと思います。

結局、「勝ち残る翻訳者-高低二極分化する翻訳マーケットの中で」( http://buckeye.way-nifty.com/translator/2005/10/post_2fde.html )で書いたように、「結局、翻訳者が翻訳者たる所以の部分で強い力を持つ翻訳者が勝ち残る」んだと思います。そして、その力を持つか持たないかは、日々、どうすごしているかで決まるんだと。

投稿: Buckeye | 2010年8月28日 (土) 11時04分

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: 統計ベースの機械翻訳:

» Twitter Trackbacks []
[続きを読む]

受信: 2010年8月29日 (日) 04時57分

« テクニカルコミュニケーションシンポジウム2010 | トップページ | 書籍の販売にからんで思ったこと »