ChatGPTをはじめとした生成AIサービスが話題になっていますが、元は機械翻訳向けに作られたAIが発展したものであることをご存じでしょうか?
ChatGPTの内部では、大規模言語モデル(Large Language Models: LLM)が動いています。2024年1月時点では、GPT-3.5(有償版ではGPT-4)が利用されています。今回のブログでは、この言語モデルと機械翻訳の関係性をご紹介します。
●言語モデルの仕組み
「言語モデル」とは、前の単語から次の単語を予測できるように学習したモデルです。例えば、「私は本を」の後には通常「読みます」や「買いました」という単語が続くことが多いかと思います。このような文例をウェブから取得して訓練データとし、大量に自己学習させることで言語モデルを作成します。以前のブログでも触れましたが、AIは単語の意味を理解することはありません。次の単語が何であるかを確率的に推定し、文を生成するのです。
この言語モデルは文章の要約や校正、そして機械翻訳などのタスクに使われてきました。
●大規模言語モデルのインパクト
言語モデルの「計算量」「学習データ量」「パラメーター数」を増やすほど、単語予測の性能が向上し、併せて言語モデルを使った文章の要約や翻訳の精度も向上することが分かっていました。パラメーター数とは、言語モデルが学習する際に最適化される変数のことを指します。しかし、2020年に登場したGPT-3の言語モデルの精度は、想定していた以上だったことから大きな話題となりました。
大規模言語モデルの比較表
さらに関係者を驚かせたのは、想定していなかった能力を獲得していることでした。例えば、数字の計算やプログラミング言語への対応です。最も知られているのは、プロンプト(指示)を出すことで、多様なタスクに対応できることです。これまで、AIを動かすには人工言語(プログラミング言語)による指示が必要でした。それがChatGPTの登場によって、自然言語(ヒトが日常使う言語)でAIに指示ができるようになり、日本語やその他の外国語をそのまま入力して使えるようになりました。
このように、言語モデルが一定の大きさを超えると、性能が劇的に向上し、さらに新しい能力を獲得できると分かった後、研究機関や企業は言語モデルの大規模化を競い合うようになります。そして、2022年にChatGPTが登場した頃には、「大規模言語モデル(LLM)」という言葉が普及するようになりました。
今回は、世界中で使われているChatGPTに、実は機械翻訳の技術が活かされていることをご紹介しました。当ブログでは、これからも機械翻訳に関する技術をご紹介していきます。
参考文献:岡野原 大輔『大規模言語モデルは新たな知能か』、岩波科学ライブラリー、2023年6月発行