★阿修羅♪ > 国際9 > 398.html
 ★阿修羅♪  
▲コメTop ▼コメBtm 次へ 前へ
Google翻訳の暗号騒動:ダミーテキストをGoogleに翻訳させた結果  WIRED
http://www.asyura2.com/14/kokusai9/msg/398.html
投稿者 ダイナモ 日時 2014 年 9 月 15 日 13:35:27: mY9T/8MdR98ug
 

少し前まで、ダミーテキストに使われる「Lorem ipsum」のラテン語をGoogle翻訳にかけると、「中国」、「インターネット」などの奇妙な訳が表示されていた。何かの暗号メッセージだったのだろうか?

「Lorem ipsum dolor sit amet, consectetur adipisicing elit」──。

ウェブデザインを学んだ人なら、この文に心当たりがあるはずだ。デザイン途中のダミーテキストとして印刷の分野では以前から使われていて、その由来は古代ローマの政治家・哲学者キケロが著した『善と悪の究極について』にあるとされている。

多くの人の目にふれるものの、このラテン語の羅列に見た人は関心を払わない。そしてそれはつまり、白日の下で何かを隠そうとするのに理想的な道具ともなるということだ。

情報セキュリティの世界的な専門家、ブライアン・クレブスは、Google翻訳がこのラテン語の言葉を通常ありえない英語に翻訳していたことに気付いた。「lorem ipsum」(小文字)は「中国」に、「lorem lorem」は「中国のインターネット」に、「Lorem ipsum」(大文字)は「NATO」といった具合になっていたのだ。

クレブス氏はブログで語っているように、数カ月前、Deloitteのサイバー・インテリジェンス部門長、ランス・ジェイムスから報告を受けた。ジェイムス氏もまた、2人のセキュリティの研究者から報告を受け取ったようだ。まるでウンベルト・エーコの小説『薔薇の名前』のなかにいるような気がしてこないだろうか?

2人の専門家は、「lorem ipsum」のヴァリエイションや、それらを組み合わせた言葉をGoogle翻訳にかけると、「中国」「NATO」「Internet」「The Company」(スラングでCIAを示す言葉だ)が表示されることに気付いた。結果、例えば「Lorem ipsum ipsum ipsum Lorem」は「中国はとてもとてもセクシーだ」(China is very very sexy)となる。

2人の研究者はさまざまなテストに着手した。得られた結果は、上記クレブス氏のブログに掲載されているスクリーンショットで見ることができる。


これは何かの陰謀か?

ここに至って、彼らは仮説を立て始めた。この現象は何から生じているのか? ひょっとして「covert channel」(秘密通信路)なのだろうか? もしかしたら中国の反体制派たちのために用意されたチャンネルなのだろうか?

covert channelとは「本来ならそうしたデータを許可しないはずのプロセスや経路を通じて情報の断片を伝達するための方法」だと、インターネットの専門家でこの報告に最初に関心を示した1人、マッテーオ・フローラは説明する。「特定の種類のデータの伝達を認めないであろうセキュリティ・ポリシーを迂回するためのシステムです」。

概念的には、「steganography」(埋め込みによるデータ隠蔽技術)と同じように、データは隠される。ただし、データは伝達システムの内部に隠されるが、このシステムもまた誰からも隠されている。したがって、チャンネルそのものが不可視なのだ。

covert channelを最初に定義(PDF)したのはバトラー・ランプソンで、1973年のことだ。彼によるとこれは、「ある種の情報伝達のための、計画されたものではない伝達経路」のことだ。そしてここから、これに関して幅広い理論的考察が展開された。

2人の研究者とクレブス自身の調査に戻ると、最も興味深い側面は、まさにキケロのオリジナルのテクストから取られた他の言葉が付け加わると、陰謀めいた文が表示されたことだ。実際、「consectetur Sit Sit Dolor」は、「ロシアは苦しんでいるかもしれない」(Russia May Be Suffering)となり、「sit sit dolor dolor」は「彼は賢い消費者だ」(He is a smart consumer)となる。

3人は少し前にGoogleに通知を行っており、Googleはつい最近、このバグを消すことに決めた。いまはもう、この現象は発生しないようだ。

もっとも、誰もがクレブスの仮説に魅了されたわけではなかった。ビッグデータによって生み出された間違った相関関係の産物にほかならないだろうという意見を述べた人もいた。

Google翻訳は、ネット上の過去の翻訳をベースにして機能していて、多言語のページをもつ報道機関や企業のウェブサイトから対訳テクストを収集する。要するに、アルゴリズムに翻訳を教えるのに、既存のデータが使われている。

そして、「Lorem Ipsum」のテクストの大部分は翻訳されないが、他の種類のコンテンツが横に並んでいる。通常は、「インターネット」、「ビジネス」のような一般的な用語を並べたSPAMページだ。例えばZDNetなどは、この現象をそう説明する。

クレブスは当然のことながらGoogle翻訳の機能を知っている。そして、翻訳の結果が時間とともにわずかに変化していたことも記している。しかし、この仮説が納得のいく説明になりうると確信していないようだ。「なぜ中国や、インターネットや、企業や、機関へのこれほどたくさんの言及やその他の奇妙な組み合わせがなければならないのか?」と、彼はブログに書いている。

専門家の1人は、「誰かが、クラウドソースのデータをもとに進化して学習していくオンライン翻訳の能力を利用することを学んだ。まともな考えの人間が決して(Google翻訳で)書かないような不明瞭なテクストを利用して、誰かが秘密のメッセージを伝達するために潜在的に使うことができる、代替的な意味を作り出したのだ」 と説明する。


http://wired.jp/2014/09/14/google-translation-code/  

  拍手はせず、拍手一覧を見る

コメント
 
01. ダイナモ 2014年9月15日 14:13:56 : mY9T/8MdR98ug : Kr2S1L17Og
Googleが中国の反体制派のために暗号手段を提供していたという見方もできなくはないが、削除された今となっては検証することはできない。

  拍手はせず、拍手一覧を見る

フォローアップ:

この記事を読んだ人はこんな記事も読んでいます(表示まで20秒程度時間がかかります。) ★登録無しでコメント可能。今すぐ反映 通常 |動画・ツイッター等 |htmltag可(熟練者向)|(各説明

←ペンネーム新規登録ならチェック)
↓ペンネーム(なしでも可能。あったほうが良い)

↓パスワード(ペンネームに必須)

(ペンネームとパスワードは初回使用で記録、次回以降にチェック。パスワードはメモすべし。)
↓画像認証
( 上画像文字を入力)
ルール確認&失敗対策
画像の URL (任意):
  削除対象コメントを見つけたら「管理人に報告する?」をクリックお願いします。24時間程度で確認し違反が確認できたものは全て削除します。 最新投稿・コメント全文リスト

▲上へ      ★阿修羅♪ > 国際9掲示板 次へ  前へ

★阿修羅♪ http://www.asyura2.com/ since 1995
スパムメールの中から見つけ出すためにメールのタイトルには必ず「阿修羅さんへ」と記述してください。
すべてのページの引用、転載、リンクを許可します。確認メールは不要です。引用元リンクを表示してください。
 
▲上へ       
★阿修羅♪  
国際9掲示板  
次へ