« 源泉徴収税率の変更 | トップページ | ビジネス書大賞2012--大賞と優秀翻訳ビジネス書賞を受賞 »

2012年5月 8日 (火)

Googleが訳語・表現のコーパスとして使えなくなる?

翻訳者にとってGoogleは訳語を探すほか、どういう表現がよく使われているのか、AとBのどちらが広く使われているのかなどを探す、いわばコーパスとして広く利用されています。でも、もうしばらくすると、そういう使い方ができなくなるのかもしれません。

少し前、(↓)のような記事が出ました。

これの日本語版(↓)もしばらくは公開されていましたが、いまは有料会員にならないと読めない状態になっています。この記事、もっと早くに書けばよかったんですが……
グーグル、検索システムを改良へ 市場シェアの維持目指し過去最大の変更か

■"Semantic search"導入は翻訳者にとって大きな問題になる

上記の記事、要するにGoogleが検索システムを大きく変更するという話で、その肝となるのが"Semantic search"です。つまり表面的な言葉ではなく、その意味を考えて検索し、その結果を返すわけです。一般的な調べ物では便利かもしれませんが、我々のように表現そのものを検索対象にする人間にとってはノイズが大幅に増えることになります。

また、これはパーソナライズの一種でもあります。つまり、私が検索した場合と、いま、この記事を読まれている人が検索した場合とで結果が異なるわけです。これもまた、一般的な調べ物では便利かもしれませんが、我々のように表現そのものを検索対象にする人間にとっては何を調べているのかわからず大きな問題となります。

このあたりは先日出た訳書『閉じこもるインターネット――グーグル・パーソナライズ・民主主義』でも大きなテーマとして取りあげられています。

そういう状況のなか、少しでも客観的な検索結果が得るため、私は「ウェブ履歴」をオフにしています。

いまだと右上の歯車アイコンをクリック→「ウェブ履歴」を選択で履歴の設定がおこなえます。私は履歴を一時停止にするとともに過去の履歴も削除しました。それでも「検索の履歴だけを記録中」と出ており、すべてがストップするわけではないようです。

実際、複数のマシンで同じ検索をしてみると、上位に来るリストもヒット数も大きく異なります。たとえば「翻訳者」で検索してみると、仕事オンリーのメインマシンでは500万ヒットでこのブログが30位前後に登場しますが、ブログ書きなどに使っているサブマシンでは1500万ヒットで、上位10サイトに自分のブログが3回も登場します。メインマシンのユーザーよりもサブマシンのユーザーのほうが「翻訳者」や「Buckeyeのブログ」に強い興味を抱いていると判断されているわけでしょう。

いままではウェブ履歴のオフ、「-」を使ったノイズの入りにくい検索などでそれなりに対処してきましたが(上記のように過去の検索履歴でヒット数が3倍くらい軽く違うので、「それなりの対処」が限界です)、今後、"Semantic search"が実装されると、「使いこなし」で対応できる範囲を超える可能性が大です。上記WSJの記事で例として「Googleという会社名を検索するとその創業者であるLarry PageやSergey Brinも関係あると判断する」ようなことが書かれています。そうなってしまったら、ある表現や用語の普及度合いを判断する場合には使えなくなります。

■対処方法はあるのか

最終的には実装が終わった時点で判断するしかないわけですが、なさそうに思います。"Semantic search"をオフにするオプションをGoogleが用意してくれればいいんですが、我々のようにニッチな使い方をしている人向けにそんなサービスを提供してくれる望みは薄いでしょう。

そんなわけで……最近、仕事の検索でBingを併用するなど代替策を探しているのですが、これはこれで必ずしも芳しくなく……困っております。

■コーパスの利用

まあ、もともと、普通の人がいろいろと便利に調べ物をしようっていう検索エンジンをコーパスとして流用してきたわけで、そういう使い方ができなくなったからといって文句を言えた筋合いではないのかもしれません。

逆に言えば、コーパスがあればいいんですよね。

たとえばアメリカ英語については(↓)のようにコーパスが存在します。

COCAの使用方法について

くだけた用法までカバーしているのかというと疑問な気がするので、利用の目的によってはイマイチかもしれません。

同じように作られた日本語のコーパス、どこかにないのかなぁ……

|

« 源泉徴収税率の変更 | トップページ | ビジネス書大賞2012--大賞と優秀翻訳ビジネス書賞を受賞 »

翻訳-ツール」カテゴリの記事

コメント

本文に書きわすれたことがありました。

「過去の行動やいまいる場所などからユーザーの考えを推測し、ユーザーから質問を投げかけられる前に回答を返せる検索エンジンを作りたい」と、Googleは考えているのだそうです。

そういうものができれば、普通の人が生活に利用する検索エンジンとしては最強ですよね。

投稿: Buckeye | 2012年5月 9日 (水) 06時43分

Googleの検索結果が表示されたウインドウの左下に「もっとツールを見る」という項目があります。そこをクリックすると「完全一致」という項目が現れます。これは使えないでしょうか。

以下に説明が書かれています。
http://support.google.com/websearch/bin/answer.py?hl=ja&p=g_verb&answer=1734130

投稿: バックステージ | 2012年5月 9日 (水) 20時30分

バックステージさん、

うわ、そんな機能があったんですね。知りませんでした。

Googleの説明を読むと、基本的にこちらを使うのがよさそうな感じがします。しばらく使ってみようと思います。

もしかすると、この機能を残してもらえるなら、"Semantic search"が導入しても問題ないかもしれません。

投稿: Buckeye | 2012年5月11日 (金) 08時17分

直接関係ない話ですが、秀Capsが11日にバージョンアップしています。その前からだと思いますが、7にも対応になってますね。

投稿: バックステージ | 2012年5月11日 (金) 20時53分

朗報、ありがとうございます。チェックしてませんでした。ダウンロードしてこよっと>秀Caps

投稿: Buckeye | 2012年5月12日 (土) 10時50分

日本語のコーパス。とりあえず、少納言でしょうか。(中納言の方がいいにはきまっているという議論はあるでしょうけれども、有料だし……)。

http://www.kotonoha.gr.jp/shonagon/

プロジェクトに、昔、翻訳フォーラムにおられた私にとってコーパス使いの「師匠」にあたる方が関わりはじめられたとの報もあり、期待しているところです。

少納言自体も、以前より随分よくなっています。

たとえば、「翻訳は」「翻訳を」「翻訳に」などをちゃんと別々に検索できます。

投稿: Sakino | 2012年5月13日 (日) 17時19分

Google検索のパーソナライズですが、Googleアカウントにログインしていなければ、無効にするオプションがあるようです。

http://support.google.com/websearch/bin/answer.py?hl=ja&answer=54048

GmailなどでGoogleアカウントにログインしている場合は、検索用に別のブラウザを使って、そこでパーソナライズをオフにする手もあります。

また、Googleのカスタム検索を使うと、独自のコーパスを作成することができます。Googleカスタム検索では、検索するサイトや除外するサイトを指定すると、専用の検索ページが作成されます。

http://www.google.com/cse/?hl=ja

ブログ検索などの埋め込みが主な使用法ですが、埋め込まなくても使えて、検索対象のサイトも自由に設定、変更することができます。
通常のGoogle検索の左側に表示されるオプションはありませんが、余計なお世話もあまりしないので、"~"で囲むと完全一致の検索になるようです。

ただし、この辺の仕様は頻繁に変更され、よくわからない点も多いです。

投稿: Blue Plum | 2012年5月15日 (火) 23時31分

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/111098/54661585

この記事へのトラックバック一覧です: Googleが訳語・表現のコーパスとして使えなくなる?:

« 源泉徴収税率の変更 | トップページ | ビジネス書大賞2012--大賞と優秀翻訳ビジネス書賞を受賞 »