機械翻訳をツールに使うと誰が喜ぶのか
一連のエントリーで、SATILAを例に機械翻訳ソフトをツールとして使った場合のアレコレを検討してきました。
翻訳の質という意味ではかなり低いものにならざるをえないようですが、だからといって、このような翻訳にニーズがないとは言えません。SATILAオートではやはりいかにも機械翻訳の出力という感じですが、SATILAプロアシストなら、たしかに、機械翻訳という感じではなくなり、下手な翻訳者が訳したという感じにはなります。単純に機械翻訳をかけるだけは避けたいが、まともにコストをかけたくもない。そういうニーズはあるはずで、機械翻訳をツールとして使えば翻訳のコストがたとえば半分になるのなら発注したいと思うところがあるでしょう。
つまり、翻訳案件が発生するソースクライアントにはメリットがあります。
仲介をする翻訳会社にとっても、半値をオファーしてソースクライアントから受注できればメリットがあります。品質が落ちる分は、あらかじめソースクライアントに納得してもらえばいいわけですし、その場合、右左で仕事を流すだけになってかえって社内的には楽になるかもしれません(粗利の額は小さくなりますが)。
仮にこのような作業が行われる時代になったとして、実際の作業をする翻訳者にとっては幸せなのでしょうか。
一連、検討してきた機械翻訳の出力文(SATILAオート)を毎日、1~1.5万字も読み(1週間で書籍1冊分くらいになります)、直してゆく作業を続ける。きついと思いますけど。しかも、料金半額だとすると、最近のスターティングレートと言われる8円の半額で4円。実働8時間(会社員なら残業2時間レベルか?)で1日4000ワードを訳して16000円。月20日働いて32万、年間売上が400万に達しないレベルです。会社員との比較で考えるなら、月間40時間の残業を1年間続けて年間300万というレベルです。
しかも、この作業を続けたからといって翻訳の力がつき、(これに比べれば)高単価の通常マーケットに参入できる……なんてことはありえません。そういう訳し方をしていないのですから。機械翻訳ソフトによる翻訳という市場が存続したとして、20年、30年、場合によっては40年と上記の作業を続けるのでしょうか。
私には、こういう仕事をして翻訳者が幸せになれるとはどうしても思えません。価値観は人それぞれですから、それでいいと思う人がいるならそれはそれで構わないとは思いますけど。
| 固定リンク
「翻訳-ツール」カテゴリの記事
- 翻訳者視点で機械翻訳を語る会(2019.01.23)
- アルク『翻訳事典2019-2020』(2019.01.31)
- 翻訳メモリー環境を利用している側からの考察について(2018.05.09)
- 機械翻訳+PE vs. 人間翻訳(2017.02.24)
- 翻訳者が持つ最大のツールは「自分の頭」(2017.02.02)
コメント
怒濤のような連続エントリなんで ^^、どこにコメントを付けるか迷いました。
To 不定詞の機械翻訳処理はあのレベルが限界みたいです、とか。
通常翻訳の半値だったら、一定以上の人はまずやりたがらないよなぁ、とか。
まあいろいろとあるのですが、最終的には、
> ソースクライアントにはメリットがあります
ここがすべてなんでしょうね。Trdados の開発方針にしたって、翻訳側からのニーズではなく結局のところ発注側の発想ですから。
私も何度か機械翻訳のチェックとブラッシュアップを頼まれて担当したことがあって、ソースクライアントがどんなレベルの訳文を求めているか、かなり具体的に知っている実例があります。
それはもうおそらく「翻訳」という範疇ではなくて、試みとしては面白いと思いますし、私もそういう世界を「ひとつの実験として」眺めているのはけっして嫌いではありません。が、少なくとも翻訳者として付き合いたくはないなぁと。
面白い資料も手元にありますが、さすがに公開するわけにはいかないので、今度の勉強会のときにでも、話の種として持っていきましょう。
投稿: baldhatter | 2009年11月11日 (水) 12時00分
> 話の種として持っていきましょう。
「~持って行きましょうか」
って書いたつもりだったのに、たった 1 文字欠けただけで確定になってしまった^^;
投稿: baldhatter | 2009年11月11日 (水) 12時06分
いやいや~、確定にしていただいてけっこうですよ~。
楽しみにしております(^^)
怒濤のような連続エントリにしたのは、過去の経験に耳打ちされたからとか、ま、いろいろとありまして。
投稿: Buckeye | 2009年11月11日 (水) 12時12分
> 過去の経験に耳打ちされた
「私のゴーストがそう囁くのよ」(by 素子さん@攻殻機動隊)
みたいです。
投稿: baldhatter | 2009年11月11日 (水) 12時15分
(劇爆)
攻殻機動隊で思いだした。先日届いたタチコマ焼きの写真、アップし忘れてるわ。このところネコちゃん騒動でどたばたしているもので。
投稿: Buckeye | 2009年11月11日 (水) 12時22分
> タチコマ焼きの写真
楽しみにしてます ^^
> 機械翻訳ソフトによる翻訳という市場が存続したとして
機械翻訳はどこまでいっても完全に人力不要とはならないでしょう。とすれば、時給ベースの社内リソースを割り当てるほうが翻訳者を使うより安上がりなはず。ドキュメント部門を有している大手であれば、ゆくゆくはそういう方向になりそうな気がします。
仮にそうなったとしたら、本当に人力翻訳が必要なマテリアルだけが発注されるようになるでしょうから、特に IT 翻訳業界は全体として市場は縮小し、ただし残った翻訳者にとっては実力が試され(かつ評価される?)世界になる......というのはちょっと楽天的すぎる予測かな。
投稿: baldhatter | 2009年11月11日 (水) 13時03分
そうそう。機械翻訳が人力不要になるのは不可能だけど、不要になる必要も別にないんですよね。
baldhatterさんが書かれたような世界になるのなら、それはそれで悪くないと私も思います。ベツモノになれば、どっちにゆくのか、入口で選べばよくなりますから。
投稿: Buckeye | 2009年11月11日 (水) 13時13分
> 時給ベースの社内リソースを割り当てるほうが翻訳者を使うより安上がり
なのは、手間が一定の範囲に収まることが分かっているとき。自分が経営者だったら、社内の人間を使って人力部分を人間プログラム化(つまり、スタイルガイド化)しますね。いくら手間がかかっても関係ねえ。何でもかんでもスタイルガイドにぶち込んじまえ、です。
まあトンデモな話でありますが、本当に賢明な経営者なら人間と機械のハイブリッドシステムなどという発想は端から持たないでしょう。品質を含むコスト構造がまるで違うので、絶対かみ合わない。機械でやると決めたら最後まで機械を使うべきなのです。山本ゆうじという方が、いまだに(大胆にも)そのようなことを目指していることを(ここで)知って、正直驚いています。
投稿: Euascomycetes | 2009年11月11日 (水) 18時01分
人間が機械に奉仕すれば可能なんじゃないですか?>人間と機械のハイブリッドシステム
私は、機械翻訳ソフトをツールとして使うシステムはそういうものだと思っています。だからこそ、作業をする人は、少なくとも翻訳者としては幸せになれないだろうなとも。
投稿: Buckeye | 2009年11月11日 (水) 20時23分
確かに、幸せにはなれないでしょうね。奉仕しても機械とは対話できないから。翻訳者は自分の内なる言葉でもうもう一人の自分(=語り手)と対話する。そこでどれだけ対話したか、つまり、どれだけ考えたかが、読者に伝わる素の部分であって、それ以外は偶然伝わるオマケに過ぎない。機械翻訳は、このオマケと関係しており、それだけでは読者も幸せになれない。言うならば、原文の書き手から翻訳者、最終読者までの間で「対話量不変の法則」が成立するのだと思います。
投稿: Euascomycetes | 2009年11月11日 (水) 22時22分
「機械翻訳ソフトをツールとして翻訳する」というやり方が一番のターゲットとしているのは、たぶん、ローカライズでしょう。契約など他分野で使っている人もいますし、SATILAは文芸にも使えるという主張もありますけど、少なくとも一番という意味では。
で、機械翻訳ソフトをツールとして使う人には、「ローカライズ分野で読者は幸せになろうとはしていない。文芸作品じゃないんだから」と言われそうです。
でも、翻訳においては、翻訳者も読者も状態は「不幸・幸福」の2値であり、「不幸・普通・幸福」の3値ではないんですよね。
翻訳の質については化学の滴定曲線みたいにS字を描くという話がつい先日、「分からなくても分かっているように訳せる?」(http://buckeye.way-nifty.com/translator/2009/11/post-1659.html )のコメントで出ましたけど、そのラインにぴったり重なる形で「幸・不幸」に分かれるのだと。ま、翻訳者にとっては「カネさえ入って糊口をしのげればあとはどうでもいい」という価値観もありえて、それを「普通」に分類することができるのかもしれませんが……S字ラインが急上昇する部分にいる少数派だと思います(思いたい、とも言う)。
ともかく、「不幸・幸福」の2値であるなら、Euascomycetesさんの言われる「読者も幸せになれない」は「読者が不幸になる」と同義であり、そう考えれば多くの人に共感してもらえるんじゃないかと思います。
投稿: Buckeye | 2009年11月12日 (木) 05時29分
機械翻訳は、3期に分類できるというのが持論です。
ここでやってるようなのが1期。
2期は、たぶん、原文を作るところから機械翻訳を意識して「文脈非依存性の高い文」の引き出しをたくさんつくっておいて、そこから出してきて原文自体を作り、その「文脈非依存性の高い文」に対応する「文脈非依存性の高い訳文」を、パパパっと引き出し番号(みたいなの)を手がかりに並べて訳文をつくるという方式。
3期は、もう少し2期のものに意味論的な何かを付与して何とかできないかという実験段階で研究者のアタマの中にしかないというもの。
でもって、ローカライぜーションは、2期式がスタートしてるんじゃないでしょうか。これは別に論じる必要がある。だって、原文からして、人工物っぽい^^;。(でもって、もう少し言っちゃうと、今、トラドスを使って仕事をさせられている翻訳者は、この2期式の対訳づくりに、報酬なく参加させられているということなのだと考えています。だとすれば、仕事の質はどんどん変わってくるし、「翻訳」的な仕事の量は減ってくるはず。そういうはなしではないですか?)
2期式は、当然、特定分野に集中するかたちでしか進行のしようがないので、ローカライゼーション以外の分野でドラスティックに進行することはないと思います。ただ、NICT,ATR等をはじめとして、今、研究開発の対象となっている(非分野限定的)機械翻訳は、こっちに近いはずです。(1期式は、80年代のベースのうえに屋上屋を架していると理解しています。)
投稿: Sakino | 2009年11月12日 (木) 11時13分
> 原文からして、人工物っぽい^^;
確かに入れ子が浅く直線的なのが多いですね。言うならば、脳の一時記憶があまり大きくならないスタイル。これ、源流は舌足らずなハッカーの文体じゃないかしら。大昔、UNIXが登場した辺りから目に付くようになったと記憶しています。
> 今、トラドスを使って仕事をさせられている翻訳者は、
> この2期式の対訳づくりに、報酬なく参加させられている
そのはずですが、現状の翻訳メモリはメンテナンスが難しく、ゴミが単調増加する。まあ、タダな部分はしっかりクオリティに反映されるわけであります。従って、機械化の素材となるようなメモリを準備するには別のコストがかかると思います。もしまともなメモリが大量にあったら、いろいろ実験してみたいことはありますが...
投稿: Euascomycetes | 2009年11月12日 (木) 13時51分
Euascomycetesさま
なんだかハンドルが、菌類っぽくていらっしゃる^^;。逃げ出した世界を思い出します^^;。
「現状の翻訳メモリはメンテナンスが難しく、ゴミが単調増加する」なのは、きっとそうなのでしょうね。自分で使ったことがないものですから。
ただ、どこか別のレベルで、ガガガっと対訳収集がはじまっているような気がします。あと、大手のソースクライアントは、自社が発注したものを全部収集しているとも思います。MSのその部門の方の発表を聴いたことがありますが、大筋、そんな感じのことをはなされていました。
投稿: Sakino | 2009年11月12日 (木) 15時15分
> ローカライぜーションは、2期式がスタートしてるんじゃないでしょうか
ええっと、機械翻訳なんかの方向をちゃんと考えてるベンダーだと原文レベルがそういう方向に進んでいる気配もありますが、私の知ってる実例では、あまり以前と変わっていない IT 系企業がまだ大半という気がします。
たしかに「各国語への翻訳」が前提として配慮されている面もありますが、それもヨーロッパ言語の中だけの話で、日本語化となると単純ではなく、原文ライティングの段階ではとてもそこまで及んでいないみたい。
> 原文からして、人工物っぽい
> 確かに入れ子が浅く直線的なのが多い
これって、山本ゆうじさんが挙げているサンプルの話でしょうか。だとしたら、あのサンプリングが偏っているのだと思います(機械翻訳の精度をよく見せるための故意かどうかは不明ですが)。IT 系でも実物はあんなに浅いものばかりではなく、生の人間くさい文章、つまりは機械翻訳に適していない例のほうがまだまだ多数派です。で、もちろん、そういうセンテンスに遭遇したときの機械翻訳の出力は、あのサンプルよりはるかに悲惨です。
投稿: baldhatter | 2009年11月13日 (金) 00時20分
現場を知らないのに、いいかげんなことを書いてすみません。ただ、これ、現場発的発想でそう考えたということではないのです。
「2期式がスタートしてるんじゃないでしょうか」というのは、「スタートしかしていない」ということかもしれません。
私が、そういうふうに考えるようになったシンポジウムにリンクを張っておきますね。いちばんおもしろかったマイクロソフトの方の発表が、冊子にも全然内容が書かれておらず、なんというか、とてもいろいろな意味で示唆的だったのですがもったいないというか、表に残したくなかったのか……同じ方がよそで発表なさっていないかと探したのですが、私が探した時点、つまりその直後には、なかったようでした。
↓の2つめの発表
http://www.congre.co.jp/imttsympo/2007/program/index.html
このシンポジウムは毎年3月ごろに開かれるようで、今年のなんかは行けばよかったかなぁとも思うのですが、行ったら行ったで時間をとられるわけでしょう、なかなか、行けません。
今年の分は、資料がダウンロードできるようになっていて、この2つめのPPTなんかは、ローカライゼーションの方は目を通しておかれた方がよいのではないですか?
ざっと(5秒ほどで早送り)見たところでは、おととしのMSの方よりは、具体的なように思います(私は、MSの方が、MTというのは、その延長線上で、グラマーチェックや、シソーラスに応用できるんだ、みたいなはなしをあれこれ楽しくはなしてくださったのが、参考になったのですが。)
http://www.congre.co.jp/imttsympo/program/index.html
投稿: Sakino | 2009年11月13日 (金) 11時37分
そうそう、開発の現場のはなしをきくと、たぶん、脱力して、今、売られている機械翻訳を使って下訳をさせようなんていう気が、そもそも、失せると思います。
今のもの、つまり第一世代と私が勝手に名付けて整理しているものは、初期の生成文法の夢というか、ある種の中間言語を数式であらわせて……みたいな発想でできていて、その夢に馳せ参じた学者層は80年代末までには逃散したという歴史的産物のようです。つまり、《読み》の段階の問題として、構文を解析するという作業自体が不可能ということで放棄された。
気をとりなおすのに時間がかかって、ようやく十年を軽く超えるブランクを経て、今度は物量にものを言わせて、example baseという言い方を彼らはしますけれども、用例のマッチングでなんとかしようというものを現在開発中なんだと思います。その過程で、第一世代のときに作られた辞書(今売られているMTソフトが使っているもの)は、なんと、使い物にならんということで、(私達が普通使う用語集というレベルのみを残して)、機械翻訳的な付加情報は、全部廃棄したとか……。
今、めざされている方向は、同一分野の人が(1)いやけがささずに読める、(2)何をあつかっているかがわかる、(2)精読用の発注の必要の有無を判断できる、なのかなー、とこれは私の勝手な理解ですが、そういうふうに考えています。ともかく、第二世代以降の開発者は、私の印象では、醒めています。彼らからすると、そういうものを、ホンモノの翻訳の下訳に使うなんていうのは、目的外使用でしょう(翻訳じゃなくって、上記(1)の作業というふうに考えるなら、はなしは全然ちがいますが)。
(同じ第二世代といっても、マイクロソフトは分野が狭いのと、原文のライティングから対処しちゃうというところで、また、様子がちがうという印象を受けましたけれども)
投稿: Sakino | 2009年11月13日 (金) 19時14分
baldhatter さん
> 確かに入れ子が浅く直線的なのが多い
に対して、
> IT 系でも実物はあんなに浅いものばかりではなく、
> 生の人間くさい文章、つまりは機械翻訳に適していない例の
> ほうがまだまだ多数派
舌足らずでゴメンなさい。表層構造(つまり構文上)の入れ子が浅いわけでなく、意味上の入れ子が浅いという感じです。実際に現れる文章は(表層的には)かなり複雑で、(特に名詞句を結合節点として文を組み立てていく日本語のような言語への)機械翻訳には(構文駆動的であるが故に)適さないと思います。本当は具体例を示さないといけないのですが...
投稿: Euascomycetes | 2009年11月13日 (金) 19時33分
> このシンポジウム
おもしろそうですね。来年3月にはぜひ行ってみたいと思います。
> 初期の生成文法の夢というか、ある種の中間言語を数式であらわせて
私が大学にいた頃も、まだまだその辺でした。そーいえば、私の英語の恩師も生成文法の本をテキストとして使ったことがありましたっけ(私は高校生...)。
> 本当は具体例を示さないといけないのですが...
具体例を出した話、したいところですができませんよねぇ^^; やはりオフラインがいい機会かも。
投稿: baldhatter | 2009年11月15日 (日) 21時24分