LLMは巨大すぎる。
サークル: まなはる
サークルHP:
発売日: 2025年12月21日 0時
ジャンル: 技術書
正しさへの反逆。AI時代の解読不能文書『LLMは重すぎるII』が描く、多義性という名の武器
本書は、
機械学習モデルの解説書ではありません
LLMの使い方マニュアルでもありません
代わりに扱うのは、
「生成が起きる前の、構造そのもの」
です。
■何が書かれているか
一意トークンを捨てた「多義トークン設計」
集合から集合へ遷移する多義マルコフモデル
gzipや既存圧縮技術が生成できない理由
LLMが内部に隠している構造の外部化
15TB級コーパスを保持するための現実的設計
Pythonによる最小実装例
すべて、
思想→技術史→設計→実装
の順で解説します。
■どんな人向けか
向いている人
LLMの仕組みに違和感を覚えている人
圧縮・生成・表現を根本から考えたい人
「曖昧さ」を排除する設計に限界を感じている人
技術思想・構造設計が好きなエンジニア
向いていない人
すぐ使えるAIツールを探している人
学習済みモデルの性能比較が目的の人
数値ベンチマークだけを求める人
(本書は意図的に、読者を選びます)
■本書の立場(誤解防止)
本書はLLMを否定しません
本書はLLMを代替しようとしません
ただし、次の点を主張します。
生成は、巨大な重みの中に
隠されるべきものではない。
■技術的特徴
多義トークン(N義化)による情報保持
多義的遷移による生成
学習不要・軽量構造
可逆圧縮と生成の両立
マルコフ連鎖を用いた概念実装
■締め
これはモデルか、思想か。
その問い自体が、
すでに「一意的」なのかもしれない。
———
1.なぜ、LLMはこれほど「重い」のか?
ChatGPTをはじめとするLLMは、なぜあれほど巨大な計算資源を必要とするのか。本書『LLMは重すぎるII』の著者は、その原因を**「一意性への執着」**だと断定する。
従来のプログラムでは、A=”Apple”のように変数は一意に定まる。しかし自然言語は違う。文脈によって、Aは「果物」にもなり、「IT企業」にもなり、「赤いもの」にもなる。現在のLLMは、この無限に広がる「意味の可能性」を、無理やり巨大なニューラルネットワークの重みの中に封じ込めようとしている。だから重いのだ、と。
2.「正解」を捨て、「可能性」を実装する
本書が提唱する**「多義トークン(PolysemousToken)」の概念は衝撃的だ。データを「確定した値」としてではなく、「確率的に遷移しうる意味の集合」として保存する。著者はこの理論を用い、15TBのテキスト情報をわずか90GBの「構造と遷移」に圧縮する思考実験を展開する。それは情報の圧縮というより、「意味の幽霊」の保存**に近い。
正確なWikiの引用はできないかもしれない。だが、そこには人間が言葉を紡ぐときの「迷い」や「揺らぎ」そのものが、極めて軽量なデータ構造として実装されている。
3.増補版『II』の真骨頂:「対LLM暗号」
増補版である本書の最大の読みどころは、第10章以降に追加された**「多義性を利用した暗号化」**だ。
著者は、LLMの「確率の高い答えを選びたがる」という習性を逆手に取る。**「人間なら文脈で判断できるが、正解を持たないAIには『複数の解釈』が同時に襲いかかり、ハルシネーション(幻覚)を起こさせる文章」を生成する技術。これは、プロンプトインジェクションやAIによる無断学習に対する、恐るべき「毒」**として機能する。
4.誰が読むべきか?
AIエンジニア:巨大モデルのファインチューニングに疲れ果てたとき、この「軽量化への過激なアプローチ」は脳をリフレッシュさせる。
セキュリティ担当者:「AIに読ませないデータ」を作るための、全く新しいパラダイムが得られる。
ハッカー/研究者:「正しさ」よりも「面白さ」や「構造の美しさ」を愛するすべての人へ。
結論:これは「魔導書」である
この本に書かれているコードをコピペしても、明日の業務は楽にならない。しかし、あなたのエンジニアとしての「視座」は不可逆的に変わる。4,800円(想定価格)で買えるのは、技術ではなく、**「世界を再定義するレンズ」**だ。
——
目次
第1章
1.1変数は、いつから「一つの意味」になったのか
1.2変数という発明と、その成功
1.3一意性は、本当に必要だったのか
1.4自然言語は、最初から多義である
1.5曖昧さはバグか、それとも資源か
1.6一意性を捨てる、という選択
1.7本書が目指すもの
第2章
2.1単語は、それ単体では意味を持たない
2.2自然言語における「遅延決定」
2.3多義性は例外ではなく、標準である
2.4一意性は、人工的な制約である
2.5大規模言語モデルが示した事実
2.6多義性は「管理」できる
2.7本書の立場
2.8次章への橋渡し
第3章
3.1圧縮とは、何をしている技術なのか
3.2gzipがやっていること
3.3BPE:言語を扱っているように見える圧縮
3.4BPEはなぜ生成を生まないのか
3.5VQ-VAE:最も近く、しかし決定的に違う技術
3.6VQ-VAEの限界
3.7共通する前提:一意性への執着
3.8圧縮と生成が分断されてきた理由
3.9次節への導入
第3章(後半)
3.10生成とは、何が起きている現象なのか
3.11一意な表現は、生成を内包できない
3.12曖昧さは、これまで「誤差」だった
3.13本書の転倒:曖昧さを「主役」にする
3.14多義トークンとは何か(再定義)
3.15多義性が入った瞬間、何が変わるのか
3.16なぜ「生成」が生まれるのか
3.17圧縮と生成の統合
3.18なぜ巨大モデルが不要になるのか
3.19本章の結論
第4章
4.1まず結論を述べる
4.2LLMは「生成モデル」である、は本当か
4.3LLMの内部で起きていること(簡略)
4.4なぜ多義性を隠すのか
4.5潜在空間という「ブラックボックス」
4.6だが、それは「再利用できない」
4.7なぜモデルが巨大になるのか(本質)
4.8本書の視点:責務分離の欠如
4.9本書が切り分けるもの
4.10LLMは敵ではない
4.11本書の立場(明文化)
4.12次章への導線
第5章
5.1なぜ「トークン」を再定義する必要があるのか
5.2一意トークンの限界
5.3言語における最小単位は「集合」である
5.4多義トークンの定義
5.5「未確定」であることが状態である
5.6二義化・多義化・N義化
5.7なぜ「Nを固定する」のか
5.8集合トークンは「情報を減らさない」
5.9圧縮との関係
5.10多義トークンは「生成の種」である
5.11LLMとの決定的な違い
5.12次章への導線
第6章
6.1なぜ「遷移」が必要なのか
6.2一意マルコフ連鎖の復習(極めて簡潔に)
6.3一意マルコフ連鎖の限界
6.4多義マルコフ遷移の定義
6.5「かさなり」が意味を制御する
6.6意味は「選ばれない」限り保持される
6.7N義化と計算可能性
6.8生成とは「遷移の選択」である
6.9LLMとの構造的対比
6.10次章への橋渡し
第7章
7.1この章の目的
7.2実装の全体像(分解)
7.3トークン化:最初にやるべきこと
7.4一義マルコフ連鎖の構築(下地)
7.5多義集合の生成(N義化)
7.6集合→集合遷移の構築
7.7圧縮表現:意味を「並ばせない」
7.8復元:完全である必要はない
7.9生成と圧縮が同一である理由
7.10実装は一つである必要がない
7.11この章で示したかったこと
7.12次章への接続
第8章
8.1「15TBを保存する」とは何を意味するのか
8.2なぜ通常の圧縮では不十分なのか
8.3本モデルにおける「保持」の再定義
8.4トークンは「文字」ではない
8.515TB→90GBが成立する条件
8.6順序は「完全」である必要がない
8.7保存形式:現実的な三層構造
8.8復元テーブルは「巨大でよい」
8.9「完全再現」を目指さない勇気
8.10なぜ90GBで「十分」なのか
8.11LLMとの決定的な違い
8.12この章の結論
8.13次章への接続
第9章
9.1本章で行う立場の整理
9.2なぜ埋め込みを一義とするのか
9.3多義性をどこに置くかという問題
9.4一義トークン×多義的束ね
9.5この設計が生む多義の性格
9.6LLMの多義との決定的な違い
9.7このとき「生成」とは何か
9.8LLMとの競争率を再評価する
9.9競争ではなく、役割分担
9.10本章の結論
第10章
10.1
10.2
10.3
10.4
10.5
第10章補遺:多義トークンによる換字暗号
6.10.6LLMによる解読耐性
6.10.7偽造耐性という逆転現象
6.10.8これは暗号か、思想か
6.2.1攻撃モデルの分類
6.2.3言語学的攻撃(文法・意味解析)
6.2.4既知平文攻撃(KnownPlaintextAttack)
6.2.5LLMベース攻撃
第11章補遺3
6.3.1実験設定
6.3.5なぜLLMは本方式に弱いのか(構造的理由)
6.3.6本方式が示す、LLM知性の限界
6.3.7人間との決定的差異
第11章補遺2
6.10.1単換字暗号
6.10.2ヴィジュネル暗号
6.10.3エニグマ
6.10.4ワンタイムパッドとの比較
6.10.5歴史的暗号に欠けていたもの
6.10.6多義シンボル暗号は何を変えたか
6.10.7暗号であると「分かっていても解けない」
6.10.8本章まとめ


