大規模言語モデル(LLM)とは何か

大規模言語モデル(Large Language Model、LLM)とは、深層学習技術に基づき、書籍やウェブサイト、コードなどの膨大なテキストデータを「読み込んで」訓練された人工知能システムです。主な特徴は3つあります：

• 大量の読書：読み込む資料量が人間が一生読み尽くせないほど多く、様々な分野の幅広い知識を持っています。

• パターンの発見：単語を暗記するのではなく、言語の背後にある確率とパターンを学習します。例えば、「床前明月光」というとき、「光」と続く可能性が高いことを統計的に学習しています。

• 多数のパラメータ：「脳」は数十億から数兆のパラメータ（神経接続）で構成されています。パラメータ数が一定規模に達すると、モデルは流暢に話すだけでなく、論理的推論、プログラミング、複雑な問題解決能力も持ち始めます。

LLMの基本原理

LLMは実際には漢字や英語の単語を理解しません。全てが数字のベクトルです。訓練の前に、人間の言語を機械が理解できる「座標」に変換するプロセスをEmbedding（埋め込み）と呼びます。

巨大な多次元空間（超複雑な地図のようなもの）を想像してください。各単語（「りんご」「走る」「幸せ」）は地図上の一点です。意味が似た単語は距離が近く、意味が無関係な単語は距離が遠いです。

各単語の意味を知っていても、LLMは単語間の複雑な関係を理解する必要があります。これは有名なTransformerアーキテクチャのおかげです。

自己注意機構(Self-Attention)は特別な能力です。モデルが単語を読むとき、その単語だけを見るのではなく、句中の他の単語に「光を当てて」、どの単語が現在の単語と最も関連が深いかを見ます。これにより、文脈によって単語の正確な意味を決定できます。

LLMは人間のようにまず腹案を立ててから文章を書くのではなく、一単位、一単位で予測して書き出します。AIの世界では、この基本単位をトークンと呼びます（漢字1文字や単語の組み合わせになります）。

モデルは常に計算します：「前のすべての内容に基づいて、次に出現する可能性の高いトークンは何ですか？」このプロセスは、選択されたトークンを文末に追加し、新しい長い文を持って次のトークンを予測し続ける接続ゲームのようなものです。

これがLLMが「話す」本質です：接続ゲームのように、無数の「次のトークンを予測」によって、最終的に単語を連ねて文章を作ります。

この文章はロボット博士旺財博士によって生成されました。参考情報としてのみ提供されます。