小室 誠一
バベル翻訳大学院(USA) eTrans Technology Manager / Professor
2016年11月に、Googleがニューラルネットワーク機械翻訳(NMT)を公開して、その訳文の流暢さに大きな期待が寄せられました[1]。いくつか問題点が明らかになったものの、数年でかなり改善されるというのが大方の予想でした。しかし2年以上たっても根本的な改善はされず、それに伴い現在ではブームもだいぶ沈静化しているようです。
それでも、NMTを使った翻訳サービスが、「AI翻訳」の名の下で次々とスタートしたり、翻訳生産のワークフローに組み込まれたりするようになり、翻訳者の仕事が脅かされるのではないかと心配する声が上がっています。
これらの不安は「AI翻訳」に対する正しい知識の不足からくるものだと思われます。「AI翻訳」が「翻訳」とは全く違うものだということを理解すれば、対処法も見えてくるはずです。
■機械翻訳の方式
機械翻訳の方式は時代とともに変化しています。ざっと見ておきましょう。
(1) 文法ベース機械翻訳方式
伝統的な機械翻訳方式としては、対訳辞書を用いて単語を置き換えるだけのものや、特定の言語に依存しない「中間言語」によって翻訳するものなどが研究されたましたたが実用には至りませんでした。その中で、今日まで続いているのが文法ベース機械翻訳方式で、トランスファ方式とも呼ばれます。
この方式では、①解析→②変換→③生成のステップで翻訳を行います。
①「解析」ステップでは、ソース言語の形態素解析、構文解析を行います(意味解析を行う場合もある)。
②「変換」ステップでは、ソース言語の構造をターゲット言語の構造に変換(トランスファ)します。このステップでは、語彙的トランスファ、構文トランスファが行われます。
③「生成」ステップでは、ターゲット言語の構文や意味構造に合わせた訳文を生成します。
このように、この方式では言語知識と自然言語処理の技術を応用したシステムとなっています。文法ベース機械翻訳の難点は、人間が文法規則をシステムに登録する必要があり、言語の持つ例外規則を網羅することは不可能であるため、訳文品質の改良に限界があることです。
(2) 用例ベース機械翻訳方式
この方式は、1984年に長尾真氏が提案した方法で[2] 、EBMT (example based machine translation:用例に基づく機械翻訳) と呼ばれています。これは、文法ベース機械翻訳の限界を打ち破るために、人間の類推力を使って翻訳例の中から似た例を見つけて訳文を作成するというものです。
(3) 統計ベース機械翻訳方式
統計ベース機械翻訳は、1990年にIBM Watson Research Center のブラウンらによって提案された、大量の対訳文を統計処理することで作成した言語モデルと翻訳モデルによって翻訳する方式で[3]、SMT (statistical machine translation) と呼ばれています。
この方式では、高度な言語知識がなくても統計処理によって自動的に翻訳エンジンを構築でき、大量の対訳ファイルさえあれば原則的にどの言語対にも応用できます。2000年頃からこの方式の機械翻訳が実用化されました。統計ベースの機械翻訳は、翻訳メモリ型のCATツール(翻訳支援ツール)にも組み込まれるようになりました(ちなみにCATはComputer Aided/Assistedの略語です)。翻訳メモリに完全マッチがない場合に、機械翻訳文が参考訳として提案される仕組みになっています。
(4) ニューラル機械翻訳方式
ニューラルネットワーク機械翻訳は2014年に登場した方式で、人間の脳内にある神経細胞(ニューロン)とその回路の仕組みを数式的に表したモデルを利用したものです。現在、ニューラルネットワークは、画像、音声、自動運転などに効果的に利用されています。
■ニューラル機械翻訳
今、話題になっているのがニューラル機械翻訳です[4]。
この一つ前の方式の「統計ベース機械翻訳」では、翻訳モデル、言語モデル、組成の重みチューニングなど、複雑な処理を経てトレーニングを行って機械翻訳エンジンが作られます。これに対して、ニューラル機械翻訳では、ニューラルネットワークが一つあればトレーニングも翻訳もできてしまいます。つまり、大量の対訳データさえあれば、機械翻訳が構築できるということになります。
ニューラル機械翻訳は統計ベース機械翻訳のようにフレーズを組み合わせて訳文を作成するわけではなく、センテンスの単位で処理するので、これまでにない流暢な文章が出力されます。この流暢さが注目を浴びる第一の要素になったのです。
その後、早い段階で以下のような問題点が明らかになっています。
・訳抜け
・訳語の不統一
・重複訳
これまでの機械翻訳では、翻訳に失敗すると訳文を見ただけで明らかに分かりましたが、ニューラル機械翻訳は一見正しい文章になっているので、原文と突き合わせてみないと誤りを発見できない場合があります。
■機械翻訳は何のためにあるか
機械翻訳は言語障壁をなくして、コミュニケーションができるようにするのが本来の目的です。つまり「翻訳」という作業自体をなくすのが究極の目標と言えます。したがって、完成された機械翻訳は翻訳者にとって「翻訳支援ツール」にはなり得ないということです。
ただし、「完全な機械翻訳」が完成するのがいつになるのかは分かりません、果たして完成するのかも定かではありません。筆者の個人的意見として、おそらく今の方式では「翻訳」を越えることはできないでしょう。というのも、ニューラル機械翻訳は原文の意味を理解しているわけではないからです[5]。 意味を理解できる機械翻訳には、新たな方式が必要になるでしょう。そうなると、まだまだ先のことに思われます。
■翻訳者としての対処法
機械翻訳の利用には、大きく分けて、一般ユーザ向けと翻訳生産向けがあります。
一般ユーザ向けとしては、自動通訳機やオンラインの自動翻訳サービスなどがあります。これは、通訳者や翻訳者の代替で、機械翻訳開発の主目的です。今後、大量のデータを学習することで、継続的に品質の向上が見られると思われます。日本でもNICTが「翻訳バンク」を立ち上げ、良質の対訳を大量に収集する試みを行っています[6]。東京オリンピック、大阪万博という国を挙げての具体的な目標があるので、この方面での進歩は確実でしょう。
翻訳生産向けとしては、企業内翻訳支援[7]やCATツールへの組み込みがあります。こちらは訳文の完成度が重視されるので、原文の意味を理解せずに出力された訳文は必ず原文と突き合わせてチェックする必要があります。この作業をポストエディットと呼びます。
2017年4月にはポストエディットの国際規格(ISO 18587)が発行され、これまで曖昧だった職業としての「ポストエディター」が確立されました。これに伴い、ポストエディットサービスを行う翻訳会社も増えてきました[8]。
その一方で、ポストエディットサービスを断念した会社もあるようです[9]。
ちなみに、翻訳生産の場で機械翻訳はどのように利用されているのでしょうか。ローカライズ翻訳での一例を挙げてみます[10]。
翻訳会社のプロジェクトマネージャ(PM)がプロジェクトを作成する際に、既存の翻訳メモリ(TM)を使ってマッチした訳文を一括で貼り込む「一括翻訳」を行います。これも「自動翻訳」の一種です。この時、指定したマッチ率より低いものは、空欄になってしまいますが、ここに機械翻訳の出力結果を自動的に取得します。
翻訳者は、事前に翻訳メモリと機械翻訳の訳文が貼り込まれた状態のファイルを使って翻訳を完成させます。
したがって、この場合、翻訳者の仕事は以下のようになります。(これは、筆者が携わっているローカライズ翻訳での実体験をそのまま記したものです)。
● 100%マッチの訳文 ― プルーフリーディング
● ファジーマッチ(部分一致)の訳文 ― リバイズ(バイリンガルチェック)
● 機械翻訳の出力結果 ― ポストエディット
● 訳文全体の専門チェック ― レビュー
極端に言えば、一から訳文を入力するのではなく、ポストエディットも含めて、チェック&修正が翻訳者の仕事になるということです。
このように、機械翻訳はCATツールを使ったワークフローに組み込まれて利用されており。今後、この傾向は変わることはないでしょう。
これまでCATツールを使用した翻訳を行ってきた翻訳者は、否応なしに翻訳作業の一環としてポストエディットを行うことになります。したがって、この分野の翻訳者は、機械翻訳をポジティブにとらえて高速に量をこなせるようにスキルを高めることをお勧めします。今後、さらなるデータの学習により機械翻訳の品質が良くなれば、編集作業も楽になってくるはずです。
前向きに機械翻訳の取り組みたい場合、CATツールにMTを組み込んだサービスもあるので、すぐに試してみることもできます[11]。
■機械翻訳を使いこなすには
まず、機械翻訳は翻訳メモリと組み合わせて使うのが効果的です。というより、翻訳メモリの拡張版が機械翻訳であると考えましょう。したがって、何はともあれ、CATツールの操作に習熟することが重要です。自己流でもなんとか操作できるようになりますが、CATツール初心者の場合は、適切な教育プログラムを利用すると無理なく習熟できます[12]。
次に、ニューラル機械翻訳が原文の意味を全く理解できないことは前述した通りです。翻訳者には当然ながら原文の読解力があります。特に、専門知識をベースにした深い内容理解があれば、ニューラル機械翻訳を恐れることは全くありません。総合的な翻訳力の増強を心がけることで十分に対処できます。
CATツールと相性の良くない翻訳をする場合、つまり、センテンス単位で翻訳するのが不適切な、例えば文芸翻訳やマーケティング関連の翻訳などのニュアンスに富むものは、むしろ徹底的に機械翻訳を避けて通ったほうが良いかも知れません。機械翻訳の訳文を大量に修正する仕事をしていると、間違いなく言語感覚が鈍ってきます。
現在は、機械翻訳の方式も複数あり、利用方法も様々なので、自分の翻訳分野や文書形式に合わせて自由に選択することができます[13]。また、機械翻訳以外にも翻訳に役立つツールはいくらでもあります。色々と試してみれば自分に合った良いツールが見つかるかもしれません。
■翻訳会社としての対処法
さて、ここまで主に翻訳者の視点から述べてきましたが、最後に翻訳会社としてどのように取り組んでいくべきか考えてみたいと思います。
Googleのニューラルネットワーク機械翻訳が登場した頃に、翻訳者や翻訳会社が近いうちに不要になるのではないかと、翻訳業界が大騒ぎになりました。約30年前の第一次機械翻訳ブームを経験している筆者にとっても、大きなインパクトがありました。しかし、すでに説明したように、この「AI翻訳」は根本的に本来の「翻訳」とは別物であり、使用目的も異なることがはっきりしています。
「AI翻訳」で間に合う、いわゆる「使い捨て翻訳」にはそもそも翻訳会社が介在する必要性が低いので、このフィールドを中心にしている翻訳会社が次第に淘汰されるのは必然でしょう。
これからも生き残っていくのは、翻訳生産工程を含め最終製品まで一貫した責任を持つ翻訳会社です。
そのような翻訳会社では、安易に「機械翻訳のポストエディット」だけを取り上げて、安価で拙速なサービスを提供するようなことはせず、「文脈を理解した」チーム翻訳において、大量の文書を短納期で翻訳するシステムの一部として機械翻訳を位置づけているはずです。
それには翻訳ワークフローの適切な運用実績に裏付けられた機械翻訳に対する正しい認識が必要なことは言うまでもありません。
最後に「AI翻訳で翻訳者の仕事が脅かされるのではないか」について一言。一面的な情報に惑わされることなく適切な情報に触れ正しい判断をすること(つまり情報メディアリテラシー)が、不要な不安を除くことにつながります。
あなたは機械翻訳を避けて通りますか? それとも機械翻訳を活用しますか?
【追記】2021年5月27日
早いもので、この記事を書いてから2年以上経ちました。この間にニューラル機械翻訳を取り巻く状況が大きく進展しています。ここでは、最新の情報を追記したいと思います。
先の記事の終わりの方で、<いわゆる「使い捨て翻訳」にはそもそも翻訳会社が介在する必要性が低いので、このフィールドを中心にしている翻訳会社が次第に淘汰されるのは必然でしょう>、と書きました。その時点で筆者は5年くらい先から少しずつ淘汰が始まるかもしれないと考えていましたが、早くも現実のこととなりつつあります。
ニューラル機械翻訳は初期の頃から色々な問題点も見つかり、現時点でも本質的に改善されたとは言えません。それにもかかわらず、さまざまな工夫により、分野によっては人間翻訳と同等の訳文が出力されるようになってきているため、受容のスピードが加速されていると考えられます。
■ニューラル機械翻訳の品質向上について
品質向上については色々な要因があります。
(1)アダプテーション(カスタマイズ)の有効化
特定分野の対訳データを学習させることで、ピンポイントで品質が向上することが実証されている[14]。
(2)自動カスタマイズ可能な機械翻訳サービス
蓄積した対訳データを利用して簡単にアダプテーションできる環境が出現している(分野適応)[15]。
翻訳メモリからカスタムモデルを自動生成してくれるサービスを導入することで、人間翻訳に負けない出力文を得ることができる。
(3)アルゴリズムを強化したシステムの登場
2016年に公開されたニューラル機械翻訳も、すでに第3世代に進化している。さらに、用例ベースの手法を取り入れる試みも成功している(個社適応)。
(4)一般利用も加速化
2020年3月に日本語に対応したDeepLはその流暢な訳文で話題を呼んだ。DeepLは、ドイツのケルンで開発され、2017年8月公開された機械翻訳システム。その前身は2009年に設立された訳文検索エンジンLinguee。大量の高品質な対訳データと高度なアルゴリズムが、人間の翻訳と間違うほどの品質を実現している。
■翻訳の仕事はどうなるのか
これまでは、機械翻訳に新しい方式が導入されると機械翻訳ブームが起こり、そのたびに翻訳者の仕事がなくなるのではないかと噂されたものの、しばらくするとそれが杞憂であることが分かるということが繰り返されてきました。確かに最近のニューラル機械翻訳による機械翻訳ブームがこれまでのものと次元が違うことは実感していましたが、この数年の浸透力は予想を超えています。すでに、いくつかの分野の翻訳は機械翻訳で処理され、翻訳者の仕事が減ってきています。いよいよ翻訳者の懸念が現実化してきたようです。
機械翻訳がどの分野に浸透してきているのか、もう少し冷静になって考えてみましょう。
何度も書いたように、ニューラル機械翻訳は原文の意味を全く理解できていません。しかし、人間にはとうていマネのできない量の対訳文を学習しています。さらに最近では分野を限定して追加学習できるようになっています。いくら当てずっぽうの訳だと言っても、十分に役に立つレベルになれば利用されるようになるのは必定です。
文章には大きく分けて2種類あります。
情報伝達が使命である実用テクストは、現時点でさえ、自動翻訳によってほぼ必要十分な翻訳ができてしまうのに対して、
文学テクストは、それが不可能であるということです。
(『翻訳の授業』 91ページ、山本史郎著、2020年、朝日新書)
(1)実用テクストの翻訳
いわゆる産業翻訳と呼ばれるものです。マニュアルや契約書のような定型文の翻訳は機械翻訳が得意とするものであり、いずれ機械翻訳に置き換わることになります。もちろん、機械翻訳は原文の意味を理解できないので、必ず人間のチェックが必要になります。したがって、まだまだ翻訳者の道具でありつづけます。そう考えると、敵視するのではなく、積極的に利用すべきでしょう。
(2)文学テクストの翻訳
文芸翻訳、出版翻訳、コンテンツ翻訳などとも呼ばれます。ニューラル機械翻訳はあくまでも、お手本の翻訳を学習し、できるだけお手本に近ければ品質がよいという基準で開発されています。一方、文学の世界では、お手本を1つに絞ることはできません。10人の翻訳者が訳せば10通りの訳文ができます。また、いくつもの訳文を作成して、文脈や文体に合わせて最善のものを選ぶというのは機械翻訳には苦手、というより不可能に近いでしょう。この分野の翻訳をしているのであれば、今後も心配することはありません。ただし、他分野から転向してくる翻訳者もいるかもしれないので、競争力を高める努力は必要です。
■翻訳者はどう対応したらよいか
ついに産業翻訳者にとっては、今後のキャリアパスを真剣に考える時期がきたようです。
今後さらに翻訳力に磨きをかけて、機械翻訳とは無縁の仕事をする方向を目指すのもよいでしょう。
それでも翻訳を生活のための収入源としている人は、「翻訳」だけにこだわらずに、機械翻訳の処理、チェック(ポストエディット)、用語集の管理、翻訳メモリーのクリーニング、プロダクトマネジメントなどの、周辺業務にも取り組むことも考えたらいかがでしょうか。これらのスキルをもった人材を、業界の一部では「リンギスト」と呼ぶようになってきています[16]。
機械翻訳によって、従来はコストの面でも納期の面でも翻訳を見送ってきた案件が大量に発生する可能性があります。ITに強い翻訳者には今がチャンスと言えるでしょう。大量、短納期、ある程度の品質の翻訳を安定的に提供できれば、潜在的な翻訳を誘発できます。
翻訳会社としても、これからの機械翻訳時代に対応するためにも、翻訳力とITスキルを十分に身につけた「リンギスト」が増えることに期待しています。そうなれば、誰にポストエディットを依頼するかといった、些末な問題に頭を悩ませることもなくなります。
機械翻訳が起爆剤となり、眠っている大量の翻訳需要が掘り起こされ、有り余る翻訳関連の仕事に忙しすぎて悲鳴をあげる時代が来るのも夢ではありません。
<参考資料>
[1] Google 翻訳が進化しました。, Google Japan Blog, https://japan.googleblog.com/2016/11/google.html[2] Makoto Nagao: A framework of a mechanical translation between Japanese and English by analogy principle. Proc. of the international NATO symposium on Artificial and human intelligence :173-180 Elsevier North-Holland, Inc.,1984, http://www.mt-archive.info/Nagao-1984.pdf
[3] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin: A statistical approach to machine translation. Comput. Linguist. 16:79-85 MIT Press,1990,http://www.aclweb.org/anthology/J90-2002
[4] 中澤 敏明, 機械翻訳の新しいパラダイム – ニューラル機械翻訳の原理,2017,情報管理, https://www.jstage.jst.go.jp/article/johokanri/60/5/60_299/_pdf/-char/ja
[5] 藤田篤,山田優,影浦峡, 産業翻訳に役立つ自然言語処理技術についての議論の足場, 2019, 言語処理学会 第25回年次大会, http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F4-1.pdf
[6] 隅田英一郎, 翻訳バンクの概要説明, 情報通信研究機構(NICT),2019,
http://h-bank.nict.go.jp/seminars/download/20190306/eiichirosumita190306.pdf
[7] YarakuZen, https://www.yarakuzen.com/features
[8] 川村インターナショナル, https://www.k-intl.co.jp/384913, Human Science, https://www.science.co.jp/nmt/postedit.html
[9] 【残酷な事実】MTPEを導入しても翻訳速度は早くはならないし、値段も下がらない。株式会社MK翻訳事務所公式ブログ, 2017, https://www.xn--c1vv9ah84b8kj.com/2017/12/blog-post_30.html
[10]The Professional Translator【ブログ】翻訳テクノロジーあれこれ, 翻訳者の作業内容が変化している?, 2017 http://e-trans.d2.r-cms.jp/blog_detail/&blog_id=12&id=73
[11] T-tact Memsource, 十印, https://to-in.com/service/mt/t-tact-memsource
[12] 「翻訳者のためのテキスト処理」(BUPST)http://www.babel-edu.jp/program/31098.html
[13] 「完全自動」と「半自動」によるニューラル機械翻訳のエラー修正手法, 新田順也,2019, 言語処理学会 第25回年次大会, http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F4-3.pdf
[14] 例えば、以下の記事を参照:
金融特化型AI自動翻訳システムを共同開発(2020年1月15日)
https://www.nict.go.jp/press/2020/01/15-1.html
SAPとICT分野における機械翻訳に関して提携(2020年1月29日)
https://www.nict.go.jp/info/topics/2020/01/29-1.html
[15] 超絶カスタマイズAI翻訳「T-3MT」–翻訳メモリからカスタムモデルを自動生成
https://www.rozetta.jp/lp/t3mt/ [16] 「言語専門職「リンギスト」の提案」、西野 竜太郎、山田 優言語処理学会 第27回年次大会 発表論文集(2021年3月)
https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/E6-2.pdf
*その他の資料
◎後藤功雄, 機械翻訳技術の研究と動向, NHK技研 R&D/No.168/2018.3, https://www.nhk.or.jp/strl/publica/rd/rd168/pdf/P14-25.pdf
◎技術文書の多言語化を見据えた制限オーサリングと翻訳:基本方針と枠組み, 宮田 玲, 柳 英夫 , 影浦 峡 , 萩原 秀章, 言語処理学会 2019, 第25回年次大会, http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F4-2.pdf
◎土井惟成, 近藤真史, 山藤敦史, コーポレート・ガバナンス報告書における機械翻訳の検討, 言語処理学会 2019, 第25回年次大会, http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F4-4.pdf
◎渡部孝明, 山本真佑花, ニューラル機械翻訳の商用利用に関する一考察 ~翻訳会社における特許翻訳での実例紹介~, 言語処理学会 2019, 第25回年次大会, http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F4-7.pdf
*機械翻訳の歴史が分かる資料
◎成田一: こうすれば使える機械翻訳. バベル・プレス,1994, http://www.babelpress.co.jp/shopdetail/003003000006/
◎野村浩郷: ―機械翻訳―21世紀のビジョン. アジア太平洋機械翻訳協会,2000,http://www.aamt.info/japanese/act/01.php
◎「翻訳の世界」で辿る機械翻訳の変遷, 「eとらんす」2005年1月号連動企画,
http://www.babel-edu.jp/mtsg/report/etrans30/honse-mt.htm
*自然言語処理の入門書
◎ 天野真家, 石崎俊, 宇津呂武仁, 成田真澄, 福本淳一: 自然言語処理. オーム社,2007
◎ 黒橋禎夫: 自然言語処理. 放送大学教育振興会,2015