前回のGoogle 翻訳のエディションに関するブログで触れたように、機械翻訳エンジンのカスタマイズとAutoMLについてご紹介します。
AutoMLとは?
AutoML = 「Automated Machine Learning」 の略
日本語に訳すと「自動化された機械学習」となります。
機械学習を行うには、高度な専門知識と複雑な処理が必要になります。知識と経験を兼ね備えたエンジニアも必要です。ところが、そのようなノウハウを持たない素人でも、機械学習を自動で行うことを可能にするのが、このAutoML(自動化された機械学習)サービスです。
Googleは、このAutoMLサービスをさまざまな分野に提供しています。翻訳だけでなく、画像、動画、テキスト認識などでも、AutoMLを利用できます。「AutoML Translation」というサービスを利用して、翻訳エンジンの機械学習を自動で行うと、カスタマイズされたモデルの構築が可能です。
ちなみに、「AutoML=Googleのサービス」と勘違いされがちですが、AutoMLを提供しているのはGoogleだけではありません。マイクロソフト、Amazon、IBM、ソニーなども、AutoMLサービスを提供しています。
AutoMLを使った翻訳エンジンのカスタマイズ
では、このAutoMLを使ってカスタムモデルを作成するには、どうしたら良いのでしょうか。自動とはいえ、学習させるための材料は必要になります。
機械学習の材料となるのは、対訳データです。もちろん、対訳なら何でも良いというわけではありません。学習させたい分野(ドメイン)の対訳データです。
例えば、「AAA」という製品のドキュメントを翻訳するためのモデルを作成したいなら、過去の翻訳資産の中から「AAA」に関係する対訳データを用意します。GoogleのAutoML Translationサービスの場合、少なくとも1,000ペアの対訳が必要になります(構築手法によっては1,000ペア未満でも可能ですが、1,000ペア以上を推奨します)。
AutoML Translationは、Googleのクラウドサービス「Google Cloud」で利用可能です。Google Cloud上でカスタムモデルを構築し、前回のブログでご紹介したGoogle 翻訳のAdvancedエディションを利用して、カスタムモデルを呼び出します。全ての機械翻訳システムで、呼び出せるわけではありません。Advancedエディションに対応しているシステムを使用する必要があります。
Google Cloudの利用やカスタムモデルの構築は、一朝一夕にできるものではありません。翻訳エンジンのカスタマイズに対応している翻訳システムの提供会社や、知見のある翻訳会社に相談する方が良いでしょう。
今回は、翻訳エンジンのカスタマイズについて取り上げましたが、用語集を使ったカスタマイズも可能です。用語集については、次回ご紹介したいと思います。