忍者ブログ
[165] [166] [167] [168] [169] [170] [171] [172] [173] [174] [175]
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

20世紀の中頃、コンピューターが発明された時、人々が期待したものの1つが、外国語の翻訳に使われることであった。
初期の機械翻訳(MT: Machine Translation)は、盛り上がったものの結局失敗であった。
60年代後半と70年代前半の研究は、ほとんど完全に見捨てられた。
聖書の一節である'The spirit is willing but the flesh is weak.(心は燃えても、肉体は弱い)'が、'The whisky is strong but the meat is rotten.(ウィスキーは強いが、牛肉は腐っている)'と翻訳されたという話を聞いたことがあるだろうか。
もしくは、ポンプの装置の名前である'hydraulic ram(水撃ポンプ)'が、'water goat(水ヤギ)'と訳された。
機械は1つの言語からその他の言語への文章の翻訳ができるかもしれないが、聖杯となるべく「全自動高性能機械翻訳」の姿は、まだ見えない。
問題は何だろうか。
 
一般的な言語の複雑さが一番の問題であろう。単語レベルでもはや、ややこしい。
'bark'の例を挙げてみれば、この単語は、動詞で「(犬などが)吠える」の意、名詞として「樹皮」の意で用いられるが、機械は、犬に樹皮が無く、木が吠えないことを知らない。
スペイン語の動詞'comer'は、文脈によって、「食べる」「捕まえる」「見渡す」「錆びる」「衰える」「かゆい」「飛び跳ねる」「けなす」「飲み込む」「取る」などの意味を持つ。
機械の計算能力によってこれらの中からもっとも適したものを選ぶのである。
 
文章のレベルになると、複雑さはもっと増す。
'John saw the woman in the park with a telescope.'に関しては、5、6個の解釈が可能だろう。
まず、誰が望遠鏡を持っているのか。そして、公園に居るのは誰か、もしくは両方なのか。
人間は近くの文章から手がかりを探し出して意味を推測するが、機械にはそのようなことはまだ不可能である。
 
そして重要な機械翻訳の問題が、言語が皆、同じように知識を単語に振り分けていないことである。
英語は三人称の代名詞を3つ、'he', 'she', 'it'があるが、トルコ語には1つ、'on'だけである。性別の差がないので、トルコ語の'on'を英語に訳すときに問題が生じる。
そして、青と緑を区別しない言語がある。逆に、ロシア語には青に対応する単語が2つある。
しかし、言語間の完全な翻訳は不可能であると、言うことが出来ない例がある。
 
特に、狭い分野での利用には、機械翻訳はとても向いている。
カナダ気象センターでは、二言語での天気予報に機械翻訳を用いている。
商業的には、専門的な文章を書く人が、機械翻訳の修正が最小限になるような、取扱説明書や部品カタログを書く方法を、学んでいる。
インターネットでも、なかなかの出来で、ウェブページまるまるの翻訳を、マウスのクリックで出来てしまう。
 
機械翻訳は、完璧ではなくても、十分に役に立つものである。
特に9.11の後、翻訳者が不足していたり、翻訳すべき書類の量がとても多かったりするときに、人間による翻訳を必要とする文章を選別するのに、とても役に立っている。
国家保安機関のダイバーセキュリティーは、国防総省と情報局によって作られ、正確に、言語を認識し、綴り間違いを修正して、65の言語から英語に翻訳し、さっと読むのには十分な文章の質を保っている。
 
9.11後の政府の資金援助を機に、研究機関での機械翻訳専門家、商業部門、そのほかの政府機関が新しく、機械翻訳に取り組み始めた。
特に、この数年間でアラビア語ー英語翻訳は驚異的に改善された。
機械は、インターネット上での多言語でのチャットを可能にするし、多国家との軍事会議にも役に立つだろう。
もちろん生身の人間が良いだろう。「全自動高性能機械翻訳」が未だ遠い存在であっても、その道を辿っているのは確かだ。
質は恒常的に改善され、機械翻訳の使用は飛躍的に伸びている。これからは、機械の時代である。
 
David Savignac, "45. How good is machine translation?"
E. M. Rickerson, Barry Hitton, ed., The 5 Minute Linguist (USA; Equinox Publishing Ltd., 2006) 

拍手

PR
この記事にコメントする
お名前
タイトル
文字色
メールアドレス
URL
コメント
パスワード Vodafone絵文字 i-mode絵文字 Ezweb絵文字
この記事へのトラックバック
この記事にトラックバックする:
言語学が大好きな一般人のブログです。 過去の記事は、軌跡として残しておきます。
カレンダー
04 2025/05 06
S M T W T F S
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
ブログ内検索
プロフィール
HN:
てぬ
性別:
女性
自己紹介:
大学院で言語学を学びたい大学生が、日々の勉強の成果を記録してゆく為の、個人サイトでした。
最新コメント
[07/22 てぬ]
[07/20 ren]
[05/24 てぬ]
[05/22 ゆう]
最新トラックバック
バーコード
P R
忍者ブログ [PR]