機械翻訳の現状と対処法

小室 誠一

バベル翻訳大学院(USA) eTrans Technology Manager / Professor


2016年11月に、Googleがニューラルネットワーク機械翻訳(NMT)を公開して、その訳文の流暢さに大きな期待が寄せられました[1]。いくつか問題点が明らかになったものの、数年でかなり改善されるというのが大方の予想でした。しかし2年以上たっても根本的な改善はされず、それに伴い現在ではブームもだいぶ沈静化しているようです。

それでも、NMTを使った翻訳サービスが、「AI翻訳」の名の下で次々とスタートしたり、翻訳生産のワークフローに組み込まれたりするようになり、翻訳者の仕事が脅かされるのではないかと心配する声が上がっています。

これらの不安は「AI翻訳」に対する正しい知識の不足からくるものだと思われます。「AI翻訳」が「翻訳」とは全く違うものだということを理解すれば、対処法も見えてくるはずです。

■機械翻訳の方式

機械翻訳の方式は時代とともに変化しています。ざっと見ておきましょう。

(1) 文法ベース機械翻訳方式
伝統的な機械翻訳方式としては、対訳辞書を用いて単語を置き換えるだけのものや、特定の言語に依存しない「中間言語」によって翻訳するものなどが研究されたましたたが実用には至りませんでした。その中で、今日まで続いているのが文法ベース機械翻訳方式で、トランスファ方式とも呼ばれます。
この方式では、①解析→②変換→③生成のステップで翻訳を行います。
①「解析」ステップでは、ソース言語の形態素解析、構文解析を行います(意味解析を行う場合もある)。
②「変換」ステップでは、ソース言語の構造をターゲット言語の構造に変換(トランスファ)します。このステップでは、語彙的トランスファ、構文トランスファが行われます。
③「生成」ステップでは、ターゲット言語の構文や意味構造に合わせた訳文を生成します。

このように、この方式では言語知識と自然言語処理の技術を応用したシステムとなっています。文法ベース機械翻訳の難点は、人間が文法規則をシステムに登録する必要があり、言語の持つ例外規則を網羅することは不可能であるため、訳文品質の改良に限界があることです。

(2) 用例ベース機械翻訳方式
この方式は、1984年に長尾真氏が提案した方法で[2] 、EBMT (example based machine translation:用例に基づく機械翻訳) と呼ばれています。これは、文法ベース機械翻訳の限界を打ち破るために、人間の類推力を使って翻訳例の中から似た例を見つけて訳文を作成するというものです。

(3) 統計ベース機械翻訳方式
統計ベース機械翻訳は、1990年にIBM Watson Research Center のブラウンらによって提案された、大量の対訳文を統計処理することで作成した言語モデルと翻訳モデルによって翻訳する方式で[3]、SMT (statistical machine translation) と呼ばれています。
この方式では、高度な言語知識がなくても統計処理によって自動的に翻訳エンジンを構築でき、大量の対訳ファイルさえあれば原則的にどの言語対にも応用できます。2000年頃からこの方式の機械翻訳が実用化されました。統計ベースの機械翻訳は、翻訳メモリ型のCATツール(翻訳支援ツール)にも組み込まれるようになりました(ちなみにCATはComputer Aided/Assistedの略語です)。翻訳メモリに完全マッチがない場合に、機械翻訳文が参考訳として提案される仕組みになっています。

(4) ニューラル機械翻訳方式
ニューラルネットワーク機械翻訳は2014年に登場した方式で、人間の脳内にある神経細胞(ニューロン)とその回路の仕組みを数式的に表したモデルを利用したものです。現在、ニューラルネットワークは、画像、音声、自動運転などに効果的に利用されています。

■ニューラル機械翻訳

今、話題になっているのがニューラル機械翻訳です[4]。
この一つ前の方式の「統計ベース機械翻訳」では、翻訳モデル、言語モデル、組成の重みチューニングなど、複雑な処理を経てトレーニングを行って機械翻訳エンジンが作られます。これに対して、ニューラル機械翻訳では、ニューラルネットワークが一つあればトレーニングも翻訳もできてしまいます。つまり、大量の対訳データさえあれば、機械翻訳が構築できるということになります。
ニューラル機械翻訳は統計ベース機械翻訳のようにフレーズを組み合わせて訳文を作成するわけではなく、センテンスの単位で処理するので、これまでにない流暢な文章が出力されます。この流暢さが注目を浴びる第一の要素になったのです。
その後、早い段階で以下のような問題点が明らかになっています。
・訳抜け
・訳語の不統一
・重複訳

これまでの機械翻訳では、翻訳に失敗すると訳文を見ただけで明らかに分かりましたが、ニューラル機械翻訳は一見正しい文章になっているので、原文と突き合わせてみないと誤りを発見できない場合があります。

■機械翻訳は何のためにあるか

機械翻訳は言語障壁をなくして、コミュニケーションができるようにするのが本来の目的です。つまり「翻訳」という作業自体をなくすのが究極の目標と言えます。したがって、完成された機械翻訳は翻訳者にとって「翻訳支援ツール」にはなり得ないということです。
ただし、「完全な機械翻訳」が完成するのがいつになるのかは分かりません、果たして完成するのかも定かではありません。筆者の個人的意見として、おそらく今の方式では「翻訳」を越えることはできないでしょう。というのも、ニューラル機械翻訳は原文の意味を理解しているわけではないからです[5]。 意味を理解できる機械翻訳には、新たな方式が必要になるでしょう。そうなると、まだまだ先のことに思われます。

■翻訳者としての対処法

機械翻訳の利用には、大きく分けて、一般ユーザ向けと翻訳生産向けがあります。

一般ユーザ向けとしては、自動通訳機やオンラインの自動翻訳サービスなどがあります。これは、通訳者や翻訳者の代替で、機械翻訳開発の主目的です。今後、大量のデータを学習することで、継続的に品質の向上が見られると思われます。日本でもNICTが「翻訳バンク」を立ち上げ、良質の対訳を大量に収集する試みを行っています[6]。東京オリンピック、大阪万博という国を挙げての具体的な目標があるので、この方面での進歩は確実でしょう。

翻訳生産向けとしては、企業内翻訳支援[7]やCATツールへの組み込みがあります。こちらは訳文の完成度が重視されるので、原文の意味を理解せずに出力された訳文は必ず原文と突き合わせてチェックする必要があります。この作業をポストエディットと呼びます。
2017年4月にはポストエディットの国際規格(ISO 18587)が発行され、これまで曖昧だった職業としての「ポストエディター」が確立されました。これに伴い、ポストエディットサービスを行う翻訳会社も増えてきました[8]。
その一方で、ポストエディットサービスを断念した会社もあるようです[9]。

ちなみに、翻訳生産の場で機械翻訳はどのように利用されているのでしょうか。ローカライズ翻訳での一例を挙げてみます[10]。

翻訳会社のプロジェクトマネージャ(PM)がプロジェクトを作成する際に、既存の翻訳メモリ(TM)を使ってマッチした訳文を一括で貼り込む「一括翻訳」を行います。これも「自動翻訳」の一種です。この時、指定したマッチ率より低いものは、空欄になってしまいますが、ここに機械翻訳の出力結果を自動的に取得します。
翻訳者は、事前に翻訳メモリと機械翻訳の訳文が貼り込まれた状態のファイルを使って翻訳を完成させます。

したがって、この場合、翻訳者の仕事は以下のようになります。(これは、筆者が携わっているローカライズ翻訳での実体験をそのまま記したものです)。

  • 100%マッチの訳文 ― プルーフリーディング
    ●ファジーマッチ(部分一致)の訳文 ― リバイズ(バイリンガルチェック)
    ●機械翻訳の出力結果 ― ポストエディット
    ●訳文全体の専門チェック ― レビュー

 

極端に言えば、一から訳文を入力するのではなく、ポストエディットも含めて、チェック&修正が翻訳者の仕事になるということです。

このように、機械翻訳はCATツールを使ったワークフローに組み込まれて利用されており。今後、この傾向は変わることはないでしょう。
これまでCATツールを使用した翻訳を行ってきた翻訳者は、否応なしに翻訳作業の一環としてポストエディットを行うことになります。したがって、この分野の翻訳者は、機械翻訳をポジティブにとらえて高速に量をこなせるようにスキルを高めることをお勧めします。今後、さらなるデータの学習により機械翻訳の品質が良くなれば、編集作業も楽になってくるはずです。

前向きに機械翻訳の取り組みたい場合、CATツールにMTを組み込んだサービスもあるので、すぐに試してみることもできます[11]。

■機械翻訳を使いこなすには

まず、機械翻訳は翻訳メモリと組み合わせて使うのが効果的です。というより、翻訳メモリの拡張版が機械翻訳であると考えましょう。したがって、何はともあれ、CATツールの操作に習熟することが重要です。自己流でもなんとか操作できるようになりますが、CATツール初心者の場合は、適切な教育プログラムを利用すると無理なく習熟できます[12]。

次に、ニューラル機械翻訳が原文の意味を全く理解できないことは前述した通りです。翻訳者には当然ながら原文の読解力があります。特に、専門知識をベースにした深い内容理解があれば、ニューラル機械翻訳を恐れることは全くありません。総合的な翻訳力の増強を心がけることで十分に対処できます。

CATツールと相性の良くない翻訳をする場合、つまり、センテンス単位で翻訳するのが不適切な、例えば文芸翻訳やマーケティング関連の翻訳などのニュアンスに富むものは、むしろ徹底的に機械翻訳を避けて通ったほうが良いかも知れません。機械翻訳の訳文を大量に修正する仕事をしていると、間違いなく言語感覚が鈍ってきます。

現在は、機械翻訳の方式も複数あり、利用方法も様々なので、自分の翻訳分野や文書形式に合わせて自由に選択することができます[13]。また、機械翻訳以外にも翻訳に役立つツールはいくらでもあります。色々と試してみれば自分に合った良いツールが見つかるかもしれません。

■翻訳会社としての対処法

さて、ここまで主に翻訳者の視点から述べてきましたが、最後に翻訳会社としてどのように取り組んでいくべきか考えてみたいと思います。
Googleのニューラルネットワーク機械翻訳が登場した頃に、翻訳者や翻訳会社が近いうちに不要になるのではないかと、翻訳業界が大騒ぎになりました。約30年前の第一次機械翻訳ブームを経験している筆者にとっても、大きなインパクトがありました。しかし、すでに説明したように、この「AI翻訳」は根本的に本来の「翻訳」とは別物であり、使用目的も異なることがはっきりしています。
「AI翻訳」で間に合う、いわゆる「使い捨て翻訳」にはそもそも翻訳会社が介在する必要性が低いので、このフィールドを中心にしている翻訳会社が次第に淘汰されるのは必然でしょう。

これからも生き残っていくのは、翻訳生産工程を含め最終製品まで一貫した責任を持つ翻訳会社です。
そのような翻訳会社では、安易に「機械翻訳のポストエディット」だけを取り上げて、安価で拙速なサービスを提供するようなことはせず、「文脈を理解した」チーム翻訳において、大量の文書を短納期で翻訳するシステムの一部として機械翻訳を位置づけているはずです。
それには翻訳ワークフローの適切な運用実績に裏付けられた機械翻訳に対する正しい認識が必要なことは言うまでもありません。

最後に「AI翻訳で翻訳者の仕事が脅かされるのではないか」について一言。一面的な情報に惑わされることなく適切な情報に触れ正しい判断をすること(つまり情報メディアリテラシー)が、不要な不安を除くことにつながります。
あなたは機械翻訳を避けて通りますか? それとも機械翻訳を活用しますか?

<参考資料>

[1] Google 翻訳が進化しました。, Google Japan Blog, https://japan.googleblog.com/2016/11/google.html
[2] Makoto Nagao: A framework of a mechanical translation between Japanese and English by analogy principle. Proc. of the international NATO symposium on Artificial and human intelligence :173-180 Elsevier North-Holland, Inc.,1984, http://www.mt-archive.info/Nagao-1984.pdf
[3] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin: A statistical approach to machine translation. Comput. Linguist. 16:79-85 MIT Press,1990,http://www.aclweb.org/anthology/J90-2002
[4] 中澤 敏明, 機械翻訳の新しいパラダイム – ニューラル機械翻訳の原理,2017,情報管理, https://www.jstage.jst.go.jp/article/johokanri/60/5/60_299/_pdf/-char/ja
[5] 藤田篤,山田優,影浦峡, 産業翻訳に役立つ自然言語処理技術についての議論の足場, 2019, 言語処理学会 第25回年次大会, http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F4-1.pdf
[6] 隅田英一郎, 翻訳バンクの概要説明, 情報通信研究機構(NICT),2019,
http://h-bank.nict.go.jp/seminars/download/20190306/eiichirosumita190306.pdf
[7] YarakuZen, https://www.yarakuzen.com/features
[8] 川村インターナショナル, https://www.k-intl.co.jp/384913, Human Science, https://www.science.co.jp/nmt/postedit.html
[9] 【残酷な事実】MTPEを導入しても翻訳速度は早くはならないし、値段も下がらない。株式会社MK翻訳事務所公式ブログ, 2017, https://www.xn--c1vv9ah84b8kj.com/2017/12/blog-post_30.html
[10]The Professional Translator【ブログ】翻訳テクノロジーあれこれ, 翻訳者の作業内容が変化している?, 2017 http://e-trans.d2.r-cms.jp/blog_detail/&blog_id=12&id=73
[11] T-tact Memsource, 十印, https://to-in.com/service/mt/t-tact-memsource
[12] 「翻訳者のためのテキスト処理」(BUPST)http://www.babel-edu.jp/program/31098.html
[13] 「完全自動」と「半自動」によるニューラル機械翻訳のエラー修正手法, 新田順也,2019, 言語処理学会 第25回年次大会, http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F4-3.pdf

*その他の資料

◎後藤功雄, 機械翻訳技術の研究と動向, NHK技研 R&D/No.168/2018.3, https://www.nhk.or.jp/strl/publica/rd/rd168/pdf/P14-25.pdf
◎技術文書の多言語化を見据えた制限オーサリングと翻訳:基本方針と枠組み, 宮田 玲, 柳 英夫 , 影浦 峡 , 萩原 秀章, 言語処理学会 2019, 第25回年次大会, http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F4-2.pdf
◎土井惟成, 近藤真史, 山藤敦史, コーポレート・ガバナンス報告書における機械翻訳の検討, 言語処理学会 2019, 第25回年次大会, http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F4-4.pdf
◎渡部孝明, 山本真佑花, ニューラル機械翻訳の商用利用に関する一考察 ~翻訳会社における特許翻訳での実例紹介~, 言語処理学会 2019, 第25回年次大会, http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F4-7.pdf

*機械翻訳の歴史が分かる資料

◎成田一: こうすれば使える機械翻訳. バベル・プレス,1994, http://www.babelpress.co.jp/shopdetail/003003000006/
◎野村浩郷: ―機械翻訳―21世紀のビジョン. アジア太平洋機械翻訳協会,2000,http://www.aamt.info/japanese/act/01.php
◎「翻訳の世界」で辿る機械翻訳の変遷, 「eとらんす」2005年1月号連動企画,
http://www.babel-edu.jp/mtsg/report/etrans30/honse-mt.htm

*自然言語処理の入門書

◎ 天野真家, 石崎俊, 宇津呂武仁, 成田真澄, 福本淳一: 自然言語処理. オーム社,2007
◎ 黒橋禎夫: 自然言語処理. 放送大学教育振興会,2015