仕事のAI
スペシャルサイト

大規模言語モデル（LLM）とは？仕組みや種類・活用例をご紹介！

大規模言語モデル（LLM）は、膨大なテキストデータを学習している、高度な言語理解が可能な技術です。幅広いタスクを実現できることから、すでに企業は業務やビジネスへの利活用を進めています。
大規模言語モデルにはどのような仕組みでタスクを行い、どのような種類があるのでしょうか。今回は、大規模言語モデルの特徴から仕組み、種類、活用例までご紹介します。

大規模言語モデル（LLM）とは？

大規模言語モデルとは「LLM（Large Language Models）」とも呼ばれるもので、膨大なデータを用いてトレーニングされた言語モデルです。

言語モデルとは、人間が使う言語において、「ある単語の後に別の単語が出現する確率」を用いてモデル化したものです。人間が使う言い回しや意味を理解した上で、次にどの単語が続くのかを推測しながら会話を構築することができます。

計算量やデータ量、パラメータ数を大幅に増やして構築される

大規模言語モデルは、言語モデルの中でも、計算量やデータ量、パラメータ数を大幅に増やして構築されるのが特徴です。

パラメータ数とは、機械学習モデルが、学習中に調整する必要のある変数の数を指します。深層学習におけるパラメータ数は、学習量や複雑さの指標となり、パラメータ数が多いほど規模の大きなモデルといえます。

自然言語処理（NLP）タスクを実行できる

大規模言語モデルは多様な自然言語処理（NLP）タスクを実行できます。

人間が話したり書いたりする言葉を自然言語と呼びますが、自然言語に存在する曖昧性やゆらぎを、文章の中で離れた単語間の関係までを把握し「文脈」を考慮した処理を可能にする技術を自然言語処理（NLP：Natural Language Processing）と呼びます。

大規模言語モデルを用いることで、人間の話し言葉や書き言葉を処理することができます。

生成AIとの関係

生成AIとは、さまざまなコンテンツを「生成」できるAIの総称です。生成AIと大規模言語モデルはどんな関係があるのでしょうか。大規模言語モデルもAIの一種ではあります。また同時に、生成AIの一種ともいえます。生成AIはテキストだけでなく画像や動画なども生成できますが、大規模言語モデルは自然言語処理を行い、テキストを生成するためのものです。どちらもテキストを生成することができますが、生成AIはテキスト以外の生成も含んでいます。

機械学習との関係

機械学習とは、コンピュータにデータを与え、そのデータをもとに学習させる技術です。大規模言語モデルは機械学習の技術をベースにしており、特にテキストデータを学習します。

【関連コラム】オンプレミス環境で利用できるローカルLLMとは？詳しく解説

大規模言語モデル (LLM) と生成AIの違い

大規模言語モデル(LLM)と混同しやすい言葉として、生成AIが挙げられます。
これらはどちらもAIに関連する言葉ではありますが、異なるものとしてあるため正しく理解する必要があります。ここでは両者の違いについて説明します。

LLM ・生成 AI はともに人工知能(AI)の一種で、文章を自動生成することが可能ですが、生成 AI が作成するものは文章（テキスト）だけではなく、画像や音声など、様々なコンテンツを自動で生成できます。それに比べて LLM は自然言語処理に特化したモデルであるため、生成できるのはテキストのみになります。このように、 LLM は生成 AI という大きなカテゴリーに内包されている特化型のモデルであると言えるでしょう。
つまりLLMは、生成AIと呼ばれるモデルの中の一つなのです。

【関連コラム】生成AIとは？AIとの違いや活用方法、メリットを解説！

大規模言語モデル（LLM）の仕組み

大規模言語モデルは、どのような仕組みで処理を行うのでしょうか。その仕組みを確認しておきましょう。

簡単に言えば、膨大な量のテキストデータから文法や文の流れ、および一定のパターンを学習し、その結果をもとに新たな文章を生成するという二段階の仕組みがあります。

主に「トークン化→ベクトル化→ニューラルネットワークを通した学習→文脈理解→デコード・出力」の流れで進みます。

「トークン化→ベクトル化→ニューラルネットワークを通した学習→文脈理解→デコード・出力」の流れを表した図

各ステップごとに分かりやすく解説いたします。

①トークン化
トークン化は、テキストデータをモデルが理解するために小さな単位に分割するプロセスです。例えば「犬が好き」という文章は、「犬」「が」「好き」といった小さな単位（トークン）に分割されます。トークン化の方法には、単語単位のトークン化、サブワード単位のトークン化（BPEやWordPieceなど）、文字単位のトークン化があります。

②ベクトル化
トークン化されたデータはそのままでは数値計算ができないため、AIが計算できるように数値ベクトルに変換します。これを「埋め込み（エンベディング）」と呼びます。ベクトル化を行うことでより高度な言語理解の準備を行います。

③ニューラルネットワークを通した学習
ベクトル化されたデータはニューラルネットワークに入力され、学習が行われます。多層化されたニューラルネットワークにより、それぞれの単語の使われる頻度特徴などを学習し理解するためLLMでは高度な言語理解が可能となります。

④文脈理解
ある程度の学習が完了したモデルは、文脈を理解するプロセスに進みます。文章の単語だけではなく、文と文のつながりや関係性を理解する文脈を解釈し意味をとらえます。

⑤デコード・出力
最後に、モデルは学習した情報に基づいて、入力に対する応答を生成します。このプロセスをデコードと呼びます。デコードでは生成したいテキストの確率分布に基づいて、次のトークンを順次選択していきます。一般的なデコードの手法として、グリーディーデコード、ビームサーチ、サンプリングなどが挙げられます。デコードされたトークン列は、最終的に人間が理解できるテキストとして出力されます。

これにより、人間との自然な会話が成立するようになります。

大規模言語モデル（LLM）の種類

世の中にはすでに大規模言語モデルの代表的な種類が複数存在します。代表例として6つの大規模言語モデルの特徴を解説します。

BERT

BERT（Bidirectional Encoder Representations from Transformers）は、2018年にGoogleが発表した自然言語処理モデルです。文脈を読める点が大きな特徴です。

GPT

GPT（Generative Pre-trained Transformer）は、OpenAIによる大規模言語モデルで、GPT-3とチューニングされたGPT3.5、GPT-4が世界的に注目を集めました。大量のテキストデータを学習した後で、特定のタスクに適用させるファインチューニング（※）が施されています。
GPT-4では従来のGPT-3がテキストのみに対応していたのに加えて、画像にも対応できるマルチモーダルAIとなり、さらに扱えるトークン数が約8倍に増えました。これにより、複雑な質問への回答が可能になっています。

※学習済みモデルに新たな層を追加して再学習させること。

LaMDA

BERTの後、Googleはユーザーとの対話が可能なアプリケーション向けのモデル、LaMDA（Language Model for Dialogue Applications）およびLaMDA2を開発しています。会話型AIとしてファインチューニングされています。

PaLM

GoogleによるPaLMはLaMDAの後続モデルです。またアップデートされたPaLM2があります。PaLMは大量のパラメータを用いているのを特徴とし、質疑応答や文脈内理解などにおいて優れた能力を発揮します。

Gemini

GeminiもGoogleによるもので、PaLM2の後継モデルです。Geminiという名でAIチャットサービスとして提供されています。テキストだけでなく画像や音声、動画も扱うマルチモーダルAIである点や、情報ソースを明示する点が特徴です。

Llama2

LlamaやLlama2は、Metaが提供するモデルです。一番の特徴は、無償で商用利用できるオープンソースモデルである点にあります。他のモデルと比較してパラメータ数が少なく、開発を試しやすいといわれています。

大規模言語モデル（LLM）の活用例

大規模言語モデルのビジネスにおける活用例を見ていきましょう。

質問に答えるチャットボット

質問に自然言語で返すチャットボットは、カスタマーサポートや社内のナレッジ検索などに活用されています。

文章の作成・校正・要約・翻訳

膨大な量のテキストデータを学習していることから、作成や校正、要約、翻訳などの業務に役立ちます。

データ整理・分析

大規模言語モデルの自然言語処理能力は、既存のデータを整理し、分析するのに役立ちます。ドキュメントデータを利用目的に合わせて自動分類したり、FAQを分析し、分布図を作成したりすることも可能です。

市場予測・顧客データ調査

大量の顧客データを分析することで、市場予測や顧客データ調査が可能になります。集めたデータを効率的に解析し、マーケティングに役立てられます。

学習サポート

社内の教育シーンにおいて、AIが学習アシスタントとして活躍することもできます。AIが学習者一人ひとりに適切なフィードバックやサポートを提供し、学習効果を高めます。

大規模言語モデル（LLM）の課題

大規模言語モデル（LLM）は、自然言語処理の分野で広く利用されていますが、いくつかの課題も挙げられます。
以下に代表的な課題の例ご紹介します。

①プロンプトインジェクション
プロンプトインジェクションとは、ユーザーが意図的に入力を操作してモデルの出力を誤誘導したり、望ましくない動作を引き出したりする行為です。実際にAIチャットボットが複数のユーザーの悪意ある操作によって学習が誘導され、不適切な応答を行うようになってしまった例なども発生しています。
プロンプトインジェクションの対策としては、ユーザー側の入力内容の制限やモデル側の応答に対する制限、ユーザーへの啓蒙活動が挙げられます。

②ハルシネーション
ハルシネーションとは、言語モデルが事実に基づかない情報や誤った内容を生成することを指します。このような現象は、ChatGPTのような深層学習モデルにおいてもよく散見され、エラーなどを引き起こす可能性があります。主な原因は訓練データの偏りや、文脈の誤解などが挙げられます。この問題を解決するための方法として、訓練データの品質向上や出力を監視しフィードバックを設けることが重要です。これにより、モデルの機能を改善し、ハルシネーションを減少させることが可能となります。

これら以外にもプライバシーの問題や、差別発言を行うなどの倫理的な問題が発生しており、このような様々な課題に対処していくためには、技術的な改善だけではなく倫理的、社会的な視点からのアプローチも重要です。