※生成AIについてさらっと学んで思ったことを書いてみた。
「LLMのことをAIって言うな!」という意見をX(旧Twitter)で見かけたことがありますが、正直なところ、それがそれほど重要なこととは思えません。というのも、「AI(人工知能)」には明確で共通の定義が存在しないからです。
それはさておき、従来のRNNやLSTMといった言語生成モデルも、ある種「人の頭」に似せた仕組みで、非常によくできていると感じていました。回帰的に情報を処理し、記憶をたどって文章を生成するそのプロセスには、人間らしい思考の形を感じ取ることができました。
しかし、Googleが「Transformer」を提案して以降、言語生成AIの能力は飛躍的に向上しました。Transformerは、文章全体を一瞬でスキャンし、重要な単語に同時に注目して「思考する」仕組みです。そのため、従来のように時間軸に沿って一歩ずつ処理するのではなく、文の意味を一括で捉え、出力に結びつけるという、人間とは異なるアーキテクチャになっています。
ある意味、Transformerは「時間という概念を無視している」とも言えるでしょう。時間とは、人間が持つ制約であって、物理的に観測できる実体ではありません。私たちが「ある」と信じているだけの枠組みであるならば、それを取り払って設計されたTransformerは、むしろ本質的なのかもしれません。
一方で、人間が文章を読むプロセスを考えると、必ずしも時系列に沿って、文法的に一語一語解釈しているわけではない気がします。私たちは、まず目に入ったいくつかの単語を拾い、そのイメージをざっくり捉えます。そして、時制や助詞など文法の情報を足して、意味の整合性を確認しながら全体の内容を理解する――そんな流れではないでしょうか。
簡略化すると、
言葉を聞く/読む → キーワードのイメージを拾う → 文法や時制を補完 → 解釈
というプロセスです。
実際には、最初に単語イメージを掴んだ時点で、かなり直感的に文の意味を予想し、その後の理解は補足や確認に過ぎないことも多いです。
これに対して、私たちが英語のような非母語を読むときは事情が異なります。
英語を聞く/読む → 単語や文法、時制を個別に理解しようとする → 脳内で日本語に変換 → 意味を解釈
というように、一つひとつの処理を意識的に進めることになります。そのため、途中で意味のわからない単語や複雑な時制に出会うと、一気に理解が止まってしまうこともあります。
とはいえ、会話中などでは「Shibuya-Station~」のように、意味が取れる単語だけを拾って推測しながら理解することもあります。周囲の言葉の意味がすべてわからなくても、「きっと渋谷駅に行きたいんだろう」とイメージで判断できるのです。
このように考えてみると、人間の言語理解も時系列や文法的な処理だけに頼っているのではなく、入力された言葉の「全体のイメージ」や「意味のまとまり」を直感的に組み合わせて理解している面があります。つまり、私たちもある意味Transformer的な理解の仕方をしているのかもしれません。
また、人間の脳は150TBの記憶容量を持ち、そのうち17.5TBが実際に記憶として使えるとも言われます。シナプスの数はおよそ100兆個で、GPT-4oのパラメータ数と同程度です。クロック数や処理速度ではAIに敵いませんが、人間の脳も非常に高度な情報処理システムであることは間違いありません。
Transformer型のAIは、人とは異なる仕組みで動いているようでありながら、出力(=アウトプット)は驚くほど人間に近づいています。もちろん、それを「人間らしく」調整しているのは人間自身ですが、結果として、人が実際に行う作業の多くを代替・上回るレベルに達しているのが現実です。
こう考えると、例えば読書などにおいても、音読せずに大量の文章を取り込むようなやり方はTransformer的な手法とも言えます。それが人間にとってベストな方法かどうかは議論の余地がありますが、いわゆる精読や復習を重ねて知識を定着させるよりも、全体像を一気に把握してから必要に応じて細部をチューニングしていく――という方法の方が、学習効率の観点からは優れている可能性もあります。
人もTransformer型で考え、学ぶべき時代なのかもしれません。
コメント