LLM言語獲得の旅: 内部表現の進化を追跡

論文要約

2025.09.08

紹介論文
1. この論文を一言でまとめると
はじめに: LLMの言語獲得はブラックボックス？
Crosscoding Through Time: 時をかける言語表現
手法詳細: スパースクロスコーダーとRELIEで表現進化を捉える
実験設定: Pythia, BLOOM, OLMoで実証
実験結果: LLMはトークンレベルから高次の抽象概念へ
結論と展望: LLM理解に向けた新たな一歩

紹介論文

今回紹介する論文はCrosscoding Through Time: Tracking Emergence & Consolidation Of
Linguistic Representations Throughout LLM Pretrainingという論文です。

https://arxiv.org/pdf/2509.05291v1.pdf

この論文を一言でまとめると

LLMの事前学習における言語能力獲得のメカニズムを解明する「Crosscoding Through Time」。スパースクロスコーダーを活用し、内部表現の変化を可視化、言語概念の出現と強化を追跡する革新的な手法を紹介します。

はじめに: LLMの言語獲得はブラックボックス？

近年、Large Language Models (LLMs) は、目覚ましい性能を発揮し、自然言語処理の分野に革命をもたらしています。しかし、その驚異的な能力の裏側で、LLMがどのように言語を理解し、生成しているのか、その内部メカニズムは依然として謎に包まれています。まるでブラックボックスのように、その動作原理は不透明なのです。

従来のLLMの評価方法といえば、ベンチマークテストが一般的でした。しかし、これらのテストでは、モデルが表面的なタスクをこなせているかどうかしか判断できず、内部で何が起こっているのか、どのような言語概念を獲得しているのか、といった核心部分には迫れませんでした。例えば、文法的に複雑な文章を正しく生成できたとしても、それが単なるパターンマッチングによるものなのか、深い理解に基づいたものなのか区別がつかないのです。

さらに問題なのは、モデルの規模が大きくなるにつれて、解釈可能性が低下するという点です。より多くのパラメータを持つLLMは、より複雑なタスクをこなせる反面、その内部表現はますます複雑化し、人間には理解しにくくなってしまいます。これは、LLMの改善、バイアスの特定、制御可能性の向上といった重要な課題に取り組む上で、大きな障壁となります。

実際、Manning et al. (2020) は、LLMがトレーニング中に複雑な言語パターンを学習するものの、この構造化されていない学習が解釈可能性を犠牲にすると指摘しています。また、Mueller et al. (2024) は、LLMによって学習された特定の概念表現を測定する新しい手法の必要性を強調しています。

LLMの内部表現を理解することは、単に好奇心を満たすだけでなく、より賢く、より安全なLLMを開発するために不可欠なステップなのです。本論文で紹介する “Crosscoding Through Time” は、このブラックボックスに光を当てる、新たなアプローチと言えるでしょう。

なぜLLMの内部表現を理解する必要があるのか？
モデルの改善、バイアスの特定、制御可能性の向上に繋がるため。

従来の評価手法では不十分なのか？
表面的な性能しか測れず、内部のメカニズムが不明なため。

Crosscoding Through Timeは、他の解釈可能性手法と何が違うのか？
学習過程を追跡できる点、アーキテクチャに依存しない点。

Crosscoding Through Time: 時をかける言語表現

LLMの言語獲得の謎に迫る本研究で、中心となるのがCrosscoding Through Time (CTT)という革新的な手法です。これは、LLMが事前学習を通してどのように言語能力を獲得していくのか、その過程を詳細に追跡することを可能にします。従来の評価方法では捉えきれなかった、モデル内部での言語表現の進化を明らかにする、まさに「時をかける」手法なのです。

スパースクロスコーダー：異なる時点での特徴量を繋ぐ架け橋

CTTの中核をなすのが、スパースクロスコーダーです。これは、異なる学習段階にあるLLMのチェックポイント間の特徴量の対応関係を学習するモデルです。具体的には、以下のような役割を果たします。

結合特徴空間の学習：複数のチェックポイントに共通する、単一の結合特徴空間を学習します。これにより、異なる時点での特徴量を直接比較することが可能になります。
特徴量の出現、維持、消失の検出：学習が進むにつれて、新たに現れる特徴量、維持される特徴量、そして消失していく特徴量を検出します。これは、LLMがどのような言語概念を獲得し、どのように学習内容を変化させていくのかを知る上で非常に重要です。

スパースクロスコーダーは、LLMの内部表現を可視化し、その進化の過程を解き明かすための強力なツールと言えるでしょう。

RELIEメトリック：特徴量の重要度を測る新たな指標

CTTでは、スパースクロスコーダーに加え、RELIE (Relative Indirect Effect)という独自のメトリックを用いて、個々の特徴量の重要度を定量化します。RELIEは、タスクパフォーマンスに対する各特徴量の因果的な重要性を評価し、その特徴量がタスクの実行にどれだけ貢献しているのかを数値で表します。

RELIEが高い特徴量は、そのタスクの実行において重要な役割を果たしていると考えられます。これにより、LLMがどのような特徴量を重視し、どのように学習を進めているのかをより深く理解することができます。

チェックポイントトリプレット：表現変化を捉えるための戦略

CTTでは、チェックポイントトリプレットと呼ばれる、パフォーマンスと表現に大きな変化を示す3つのチェックポイントを選び、スパースクロスコーダーを学習させます。これは、言語表現が大きく変化するタイミングを捉え、その変化の前後でどのような特徴量が現れ、消え、変化するのかを詳細に分析するためです。

チェックポイントトリプレットを用いることで、LLMの学習過程における重要な転換点を特定し、その前後での言語表現の変化をより明確に捉えることができます。

アーキテクチャに依存しないスケーラビリティ：様々なモデルへの適用可能性

CTTは、特定のLLMアーキテクチャに依存しない汎用的な手法です。本研究では、Pythia、BLOOM、OLMoといった異なるアーキテクチャを持つLLMでCTTの有効性が検証されています。また、数十億のパラメータを持つ大規模モデルにも適用可能であり、そのスケーラビリティが示されています。

CTTは、LLMの言語獲得という複雑な現象を解明するための強力なツールです。スパースクロスコーダーとRELIEメトリックを組み合わせることで、LLMの内部表現の進化を可視化し、その学習メカニズムをより深く理解することが可能になります。次章では、CTTを構成する要素をより詳しく見ていきましょう。

手法詳細: スパースクロスコーダーとRELIEで表現進化を捉える

このセクションでは、本論文の中心的な手法である「Crosscoding Through Time」の詳細を解説します。LLMが言語表現を獲得し、進化させる過程を捉えるために、どのようなステップを踏んでいるのか、具体的に見ていきましょう。

1. スパースクロスコーダーの学習: 異なる視点をつなぐ

スパースクロスコーダーは、異なる学習段階にあるLLMの内部表現をつなぐ橋渡し役です。その学習は、以下の3つの段階に分かれます。

チェックポイントの選択: まず、LLMの学習過程における重要な転換点（チェックポイント）を特定します。これは、タスクの性能変化と、モデル内部のアクティベーションの相関分析を組み合わせることで行われます。重要な変化が見られるタイミングを捉えることで、効率的な学習につなげます。
クロスコーダーの学習: 選択されたチェックポイント間で、スパースクロスコーダーを学習させます。このクロスコーダーは、異なるチェックポイントにおける特徴量（モデル内部の表現）を、共通の空間にマッピングする役割を果たします。
特徴量の属性: 最後に、学習されたクロスコーダーを用いて、各特徴量の重要度を評価します。ここで登場するのが、後述するRELIEという指標です。RELIEを用いることで、特徴量の出現、維持、消失といった、表現の進化を定量的に捉えることができます。

2. RELIE (Relative Indirect Effect): 特徴量の重要度を測る

RELIEは、各特徴量がLLMのタスク遂行にどれだけ貢献しているかを測るための指標です。特徴量を意図的に取り除いた場合（アブレーション）に、タスクの性能がどれだけ変化するかを分析することで、その特徴量の重要度を評価します。

RELIEの値が高い特徴量は、タスクの性能に大きく影響を与えている、つまり、重要な役割を果たしていると考えられます。逆に、RELIEの値が低い特徴量は、タスクの性能にはあまり貢献していないと考えられます。

本論文では、RELDECという別の指標も紹介されています。RELDECは、チェックポイント固有の特徴量を、他のチェックポイントと共有される特徴量から分離するための指標です。RELDECはタスクに依存しない広範な視点を提供しますが、タスクのパフォーマンスを実際に駆動する特徴量を特定するには、RELIEの方が適しています。

RELIEの計算式は以下の通りです。

RELIE2-way,i = |IEig,c2| / (|IEig,c1| + |IEig,c2|)

RELIE3-way,i = (|IEig,c1|, |IEig,c2|, |IEig,c3|) / Σc∈ {c1,c2,c3} |IEig,i|

これらの式は、特徴量iの、チェックポイントc1, c2, c3における重要度を相対的に評価するものです。RELIEを用いることで、LLMが特定の言語能力を獲得する上で、どのような特徴量が重要な役割を果たしているのかを定量的に分析することができます。

3. チェックポイント表現の属性: 時系列で追跡する

RELIEを用いて特徴量の重要度を評価したら、それらの特徴量がLLMの学習過程において、どのように変化していくのかを時系列で追跡します。この追跡により、特徴量の出現、維持、消失といった、表現の進化を詳細に把握することができます。

例えば、初期の学習段階では、単語のスペルミスや文法的な誤りを検出する特徴量が重要だったとします。しかし、学習が進むにつれて、より高度な文法構造や意味を理解する特徴量が重要になっていく、といった変化を捉えることができます。

4. 特徴量のアノテーション: 意味を理解する

最後に、重要度の高い特徴量に対して、人間が解釈可能なアノテーションを付与します。これは、特徴量がどのような言語的な役割を果たしているのかを理解するために不可欠な作業です。

アノテーションは、特徴量を活性化させるようなテキストの例を分析したり、特徴量の挙動を詳細に調べたりすることで行われます。アノテーションを通じて、特徴量が具体的な単語やフレーズを検出しているのか、より抽象的な文法構造や意味を捉えているのかを判断します。

これらのステップを通じて、「Crosscoding Through Time」は、LLMの言語獲得における内部表現の進化を、詳細かつ定量的に捉えることを可能にします。この手法は、LLMのブラックボックス化された内部構造を解明し、より高性能で信頼性の高いLLMの開発に貢献することが期待されます。

実験設定: Pythia, BLOOM, OLMoで実証

本研究では、LLMの事前学習における言語獲得のメカニズムを解明するため、以下の3つのオープンソースLLMファミリーを用いて実験を行いました。

実験モデル

Pythia 1B (Biderman et al., 2023):
Pythiaは、初期の言語機能の出現を詳細に捉えるために、密なチェックポイントログを提供します。
OLMo 1B (Groeneveld et al., 2024):
OLMoは、拡張されたトレーニングにより、長期的な事前トレーニングにおける特徴維持の分析に適しています。
BLOOM 1B (Scao et al., 2023):
BLOOMは多言語コーパスを使用しており、クロスリンガルな表現の発達を追跡できます。

クロスコーダー設定

先行研究 (Lieberum et al., 2024) に倣い、本研究ではクロスコーダーの辞書サイズを2¹⁴ (16,384) としました。これはモデルの規模を考慮した上での決定です。

データセット

各モデルのクロスコーダーの学習には、以下のデータセットのサブセットを使用しました。

Pythia: Pile (Gao et al., 2020) から400Mトークンをサンプリング
OLMo: Dolma (Soldaini et al., 2024) から400Mトークンをサンプリング
BLOOM: mC4 (Xue et al., 2021) から400Mトークンをサンプリング

BLOOMのデータセットについては、言語の偏りを考慮し、上位10言語をROOTS (Laurençon et al., 2023) の割合に応じてサンプリングしました。具体的には、英語 (35%), 中国語 (19%), フランス語 (15%), スペイン語 (13%), ポルトガル語 (6%), アラビア語 (5%), ベトナム語 (3%), ヒンディー語 (2%), インドネシア語 (1%), ベンガル語 (1%) となっています。

評価タスク

主語と動詞の一致 (Subject-Verb Agreement; SVA) の獲得を評価するため、以下のベンチマークを使用しました。

これらのベンチマークは、文法的なケースや難易度など、さまざまな側面からSVAを評価します。MultiBLiMPとCLAMSは多言語に対応しており、言語能力の評価に役立ちます。

実験結果: LLMはトークンレベルから高次の抽象概念へ

本研究の核心は、LLMがどのように言語能力を獲得していくのか、その過程を詳細に追跡した実験結果です。従来の評価手法では捉えきれなかった、内部表現レベルでの変化をCrosscoding Through Timeは明らかにしました。具体的にどのような進化が見られたのでしょうか？

初期段階：トークンレベルの特徴検出

実験の結果、LLMの学習初期段階では、トークンレベルの表層的な特徴を捉える能力が中心であることがわかりました。例えば、特定のサブトークン（単語の一部）や、非言語的な要素（記号など）を検出する特徴が強く現れます。これらの特徴は、個々の単語や記号を識別するのに役立ちますが、文法的な構造や意味を理解するまでには至りません。

学習の進行：文法概念の獲得

しかし、学習が進むにつれて、LLMの内部表現は徐々に変化していきます。トークンレベルの特徴検出に加えて、より抽象的な文法概念を捉える特徴が現れ始めます。例えば、以下のような特徴が確認されました。

前置詞や複数名詞を識別する特徴
主語と動詞の一致を検出する特徴
関係代名詞や接続詞を識別する特徴

これらの特徴は、単語間の関係性や文の構造を理解する上で不可欠です。LLMが、個々の単語だけでなく、文全体の構造を把握し始めていることを示唆しています。

RELIE分析：言語能力獲得のダイナミズム

本研究では、RELIE (Relative Indirect Effect)という独自の指標を用いて、各特徴がタスクのパフォーマンスにどれだけ貢献しているかを分析しました。その結果、学習の過程で、特定のトークンや文法的な特徴が、タスクの達成に重要な役割を果たすようになる様子が明らかになりました。つまり、LLMは、事前学習を通じて、より洗練された言語理解能力を獲得していくのです。

多言語モデル：クロスリンガルな特徴抽出

さらに、多言語モデルであるBLOOMを用いた実験では、興味深い結果が得られました。初期段階では、言語ごとに異なる特徴が抽出されていましたが、学習が進むにつれて、複数の言語に共通する特徴が現れ始めたのです。これは、LLMが言語の壁を越えて、より普遍的な言語理解能力を獲得していることを示唆しています。

これらの実験結果は、LLMの言語獲得が、単なるパターン認識ではなく、より高度な抽象化と構造理解を伴うプロセスであることを示しています。Crosscoding Through Timeは、その詳細な過程を可視化し、LLMの内部構造解明に大きく貢献すると期待されます。

結論と展望: LLM理解に向けた新たな一歩

本研究では、LLMの事前学習における言語獲得のメカニズムに迫るため、「Crosscoding Through Time」という新たな手法を提案しました。スパースクロスコーダーを用いてモデルの内部表現を分析し、言語能力の進化を可視化することで、LLMが表層的な特徴から高次の抽象概念へと学習を進化させる過程を捉えることに成功しました。

本手法は、アーキテクチャに依存せず、数十億パラメータ規模のモデルにも適用可能であり、今後のLLM研究における強力なツールとなることが期待されます。

しかし、本研究には限界もあります。チェックポイントの選択、初期段階の解釈の難しさ、ベンチマークの限界など、改善の余地がある点も認識しています。今後の展望としては、個々の特徴量だけでなく、回路全体の進化を捉えること、そして敵対的攻撃への耐性評価や、多言語モデルの公平性評価への応用などが考えられます。

LLMは、現代の自然言語処理において不可欠な存在となりました。その内部構造を解明することは、より高性能で信頼性の高いLLMの開発に繋がるだけでなく、人間の言語理解のメカニズムを理解する上でも重要な一歩となります。本研究が、その一助となれば幸いです。