TopK言語モデル：解釈可能性と制御可能性の新潮流

紹介論文
1. この論文を一言でまとめると
TopK言語モデルとは？～スパース性がもたらす解釈可能性～
TopK活性化関数：スパース性を生み出す技術
実験設定と評価方法：性能を測る
ニューロンの専門化：内部表現の可視化
概念ステアリング：ニューロン操作によるテキスト生成制御

紹介論文

今回紹介する論文はTopK Language Modelsという論文です。

https://arxiv.org/pdf/2506.21468v1.pdf

この論文を一言でまとめると

TopK言語モデルは、ニューラルネットワークの解釈可能性と制御可能性を高めるための新しいアプローチです。スパース活性化関数を使用することで、モデルの内部表現をより理解しやすく、操作しやすくします。本記事では、TopK LMsの基本原理、実験結果、そして今後の可能性について解説します。

TopK言語モデルとは？～スパース性がもたらす解釈可能性～

近年のAI分野において、自然言語処理（NLP）技術は目覚ましい発展を遂げていますが、その中心を担うのが言語モデル（LMs）です。特にTransformerアーキテクチャを基盤とする言語モデルは、テキスト生成、翻訳、質問応答など、幅広いタスクで優れた性能を発揮しています。しかし、従来の言語モデルはパラメータ数が膨大であり、その内部挙動を理解することが困難であるという課題を抱えています。

そこで注目されているのが、TopK言語モデル（TopK LMs）です。TopK LMsは、従来の言語モデルにおける課題、特に解釈可能性の低さを克服し、より透明性の高いAIシステムの開発に貢献することを目指しています。本セクションでは、TopK LMsの概要を紹介し、従来の言語モデルにおける課題と、TopK LMsがどのようにその課題を克服するかを解説します。

TopK言語モデルの概要

TopK LMsは、TransformerアーキテクチャにTopK活性化関数を組み込むことで、モデルの隠れ状態をTopK スパースオートエンコーダ（SAE）の潜在特徴と同等にすることを特徴としています。これにより、事後的な訓練の必要性を排除し、SAEに匹敵する解釈可能性を提供します。

従来の言語モデルの活性化空間を分析・解釈するためのツールとして、スパースオートエンコーダ（SAEs）が重要になっています。SAEsは、ニューロン基盤で表現された密な活性化ベクトルを、学習された過完備基盤で表現されたスパースベクトルに「解きほぐす」ように訓練され、概念の解釈性の高い表現を発見できるのです。

従来の言語モデルにおける課題：解釈可能性の低さ

従来のSAEsは事後的に訓練されるため、特定の概念を発見できない場合、SAE側の問題か、基盤となる言語モデル（LM）がその概念を表現していないのかが不明確でした。また、SAEsの訓練条件やアーキテクチャの選択が、学習される特徴に影響を与えるという問題もありました。モデル訓練中にLMがどのように概念を学習するかを追跡する際、特徴の安定性の欠如が、異なるチェックポイント間でSAEの特徴を比較することを困難にするという課題もありました。

TopK LMsが課題を克服する方法：スパース性の活用

TopK LMsは、TopK活性化関数を特定の層に組み込むことで、これらの課題を克服します。TopK活性化関数は、各層で上位k個のニューロンのみを活性化させるため、モデル全体の活性化ニューロン数を大幅に削減できます。これにより、モデルはより重要な特徴に集中して学習できるようになり、解釈可能性が向上します。

TopK LMsは、モデルサイズ、計算効率、解釈可能性の間の有利なトレードオフを提供します。ターゲットを絞ったニューロン介入を通じて、テキスト生成を制御し、チェックポイントと層を越えたニューロン形成プロセスの詳細な分析を促進することも可能です。

TopK LMsは、従来の言語モデルと比較して、より少ないパラメータで同等の性能を達成できる可能性があります。これは、モデルの軽量化に繋がり、計算コストの削減にも貢献します。

まとめ

TopK LMsは、スパース性を活用することで、従来の言語モデルにおける解釈可能性の課題を克服し、より透明性の高いAIシステムの開発に貢献する可能性を秘めた新しいアプローチです。次のセクションでは、TopK LMsの中核となるTopK活性化関数について詳しく解説します。

TopK活性化関数：スパース性を生み出す技術

TopK言語モデル（LMs）の中核を担うのが、TopK活性化関数です。このセクションでは、TopK活性化関数の数理的な定義から、従来の活性化関数との違い、そしてスパース性を実現するメカニズムまでを詳しく解説します。TopK活性化関数を理解することで、TopK LMsが従来の言語モデルと比べてどのように解釈可能性を高めているのか、その本質が見えてくるでしょう。

TopK活性化関数の数理的な定義

まず、TopK活性化関数を数式で定義しましょう。入力ベクトルをx = (x₁,...,x_d) ∈ R^dとします。ここで、R^dはd次元の実数ベクトル空間を表します。次に、T_k(x)を{x₁,...,x_d}の中でk番目に大きい値と定義します。このとき、TopK活性化関数T_k : R^d → R^dは、成分ごとに以下のように定義されます。

yi = f(xi) if xi ≥ Tk(x)
yi = 0 otherwise

または、以下のように表現することもできます。

yi = f(xi)1{xi≥tk(x)} i = 1,...,d

ここで、fは要素ごとの非線形関数を表し、一般的にはReLU関数などが用いられます。この定義からわかるように、TopK活性化関数は、入力ベクトルxの中で上位k個の活性値に対応する要素のみを保持し、残りの要素を0にするという役割を担っています。

従来の活性化関数との違い

ReLU、Sigmoid、Tanhなどの従来の活性化関数は、すべての入力要素に対して非線形変換を適用します。例えば、ReLU関数は入力が0以下の場合に0を、0より大きい場合にそのまま出力します。Sigmoid関数は入力を0から1の範囲に、Tanh関数は-1から1の範囲に変換します。これらの関数は、入力の大小に関わらず、何らかの値を必ず出力します。

一方、TopK活性化関数は、入力ベクトルの値に基づいて選択的に活性化を行います。つまり、上位k個以外のニューロンは完全に非活性化されるため、よりスパースな表現を学習できます。このスパース性が、TopK LMsの解釈可能性を高める重要な要素となります。

スパース性を実現するメカニズム

TopK活性化関数がどのようにスパース性を実現するのか、そのメカニズムを詳しく見ていきましょう。

ニューロン数の削減: TopK活性化関数は、各層で上位k個のニューロンのみを活性化させるため、モデル全体の活性化ニューロン数を大幅に削減できます。これにより、モデルの計算コストを削減し、メモリ効率を向上させることができます。
重要な特徴への集中: 活性化されなかったニューロンは、勾配の伝播に寄与しないため、モデルはより重要な特徴に集中して学習できます。不要な情報を遮断することで、モデルはノイズに強くなり、汎化性能が向上します。
表現能力の維持: TopK活性化関数は、モデルの表現能力を維持しながら、計算コストを削減する効果もあります。上位k個のニューロンは、最も重要な情報を保持しているため、モデルはタスクに必要な情報を十分に表現できます。

アニールされたTopK平滑化

TopK LMsの訓練を安定させ、収束を早めるために、論文ではアニールされたTopK平滑化という手法が用いられています。これは、訓練の初期段階では比較的密な状態から始め、徐々にスパースな状態へと移行させるというものです。

アニーリング係数α ∈ [0, 1]を使用して、活性化関数を以下のように調整します。

y = αf(x) + (1 − α)(f(x) * 1{x ≥ Tk(x)})

訓練の初期段階（α ≈ 1）では、ほとんどすべてのニューロンが活性化されます。訓練が進むにつれてαが減少し、TopK活性化関数の効果が強まります。これにより、モデルは徐々にスパースな表現を学習し、最終的にはTopK LMsの特性である高い解釈可能性を獲得します。

補足情報：線形減衰がうまく機能することが実験的に確認されています。より複雑な減衰スケジュールについては、今後の研究課題とされています。

まとめ

TopK活性化関数は、TopK LMsの中核となる技術であり、モデルにスパース性をもたらすことで、解釈可能性と制御可能性を高める役割を果たします。従来の活性化関数とは異なり、TopK活性化関数は入力ベクトルの値に基づいて選択的に活性化を行うため、モデルはより重要な特徴に集中して学習できます。アニールされたTopK平滑化と組み合わせることで、TopK LMsは安定した訓練と高い性能を両立させています。

実験設定と評価方法：性能を測る

このセクションでは、TopK言語モデル（LMs）の性能を客観的に評価するための基盤となる、論文中で行われた実験設定、モデル構成、トレーニングデータ、そして評価指標について解説します。

モデル構成：TopK LMsはどのように構築されたのか

TopK LMsの実験では、Llamaアーキテクチャを基盤としたデコーダー専用のモデルが用いられました。具体的には、以下の2つのバリアントが比較されています。

バニラベースライン：TopKメカニズムを組み込まない、標準的なLlamaモデル。
TopK-LM：TopK活性化関数を組み込んだLlamaモデル。

これらのモデルは、隠れ層の次元数（D）とTransformerの深さ（L）を変えながらインスタンス化され、性能が比較されています。

隠れ層の次元数 D ∈ {1024, 2048}
Transformerの深さ L ∈ {8, 16, 24}

TopK-LMバリアントでは、各層で上位k=64個のアクティベーションのみが保持され、最後の2層（nlastnontopk = 2）はTopK活性化関数を適用せずに、元のTransformerブロックとして維持されます。また、トレーニングの初期段階で、マスキング強度を線形に増加させるアニーリングという手法も用いられています（アニーリングステップ比 = 0.2）。

トレーニングデータ：モデルは何を学習したのか

モデルの学習には、FineWeb Eduコーパスが使用されました。このコーパスは約200億トークンから構成されており、教育的なウェブコンテンツを豊富に含んでいます。モデルの検証には、このコーパスからホールドアウトされたデータセットが用いられています。

評価指標：性能はどのように測られたのか

TopK LMsの性能は、以下の2つの軸で評価されました。

言語的流暢さ
- FineWeb-Edu検証セットとWikiTextデータセットにおけるパープレキシティ
- LAMBADAデータセットにおけるパープレキシティと正答率
ゼロショット汎化
- WinoGrande、HellaSwag、ARC (Easy & Challenge)、OpenBookQAといった、常識推論や質問応答のベンチマークにおけるゼロショット正答率

これらの評価指標を用いることで、TopK LMsが持つ言語生成能力と、学習時に見たことのないタスクへの適応能力を総合的に評価することができます。

トレーニングハイパーパラメータ：学習はどのように行われたのか

モデルのトレーニングには、AdamWオプティマイザーが使用され、以下のハイパーパラメータが設定されました。

初期学習率: 3 × 10^-4
(β1, β2) = (0.9, 0.95)
ε = 10^-8
weight decay = 0.1
勾配クリッピング: 10.0
グローバルバッチサイズ: 1024
トレーニングステップ数: 20000

実装とハードウェア環境：実験はどのように実行されたのか

TopK LMsの実装には、Meta社が開発したPyTorch LLMライブラリである“Meta Lingua”が用いられました。すべての実験は、それぞれ141GBのVRAMを搭載した8つのNVIDIA H200 SXM GPUを搭載した単一ノード上で実行されました。

パープレキシティとは、言語モデルの予測性能を測る一般的な指標であり、値が低いほど性能が良いとされます。一方、ゼロショット学習は、モデルが学習時に見たことのないタスクを解決する能力を評価する手法です。

これらの実験設定と評価方法の詳細を理解することで、TopK LMsの性能を客観的に判断し、その有効性を評価するための基盤が得られます。次のセクションでは、これらの実験結果に基づいて、TopK LMsが学習したニューロンの専門化について詳しく見ていきましょう。

ニューロンの専門化：内部表現の可視化

TopK言語モデル（LMs）の内部表現はどのように形成されるのでしょうか？このセクションでは、TopK LMsが学習したニューロンの専門化を、トークンエントロピーとセマンティックエントロピーという2つの指標を用いて分析し、モデル内部で何が起こっているのかを可視化します。

トークンエントロピー：ニューロンの語彙選択性を測る

トークンエントロピーは、ニューロンが特定の単語（トークン）に対してどれだけ選択的に反応するかを測る指標です。この値が小さいほど、そのニューロンは特定の単語に強く反応し、他の単語にはほとんど反応しない、つまり「語彙選択性が高い」と言えます。逆に、トークンエントロピーが高いニューロンは、様々な単語に対して比較的均等に反応するため、汎用的な特徴を捉えていると考えられます。

数式で表すと、以下のようになります。

H_token(l, k) = – Σ p_l,k,d log p_l,k,d

ここで、

l：層のインデックス
k：ニューロンのインデックス
p_l,k,d：ニューロンkがトークンdに反応する確率

つまり、トークンエントロピーは、ニューロンの活性化分布のシャノンエントロピーとして定義されます。情報理論におけるエントロピーと同様に、値が高いほど不確実性が高く、低いほど特定の特徴に集中していることを意味します。

例えば、特定のプログラミング言語のキーワード（`if`、`else`、`for`など）に強く反応するニューロンは、トークンエントロピーが低くなります。一方、一般的な単語（`the`、`a`、`is`など）に反応するニューロンは、トークンエントロピーが高くなります。

セマンティックエントロピー：ニューロンの意味選択性を測る

セマンティックエントロピーは、ニューロンが意味的に関連する単語のグループに対してどれだけ選択的に反応するかを測る指標です。トークンエントロピーが個々の単語に対する選択性を測るのに対し、セマンティックエントロピーはより抽象的な概念に対する選択性を測ります。この値が小さいほど、そのニューロンは特定の意味を持つ単語群に強く反応し、他の意味とは区別している、つまり「意味選択性が高い」と言えます。

数式は少し複雑になりますが、基本的な考え方はトークンエントロピーと同様です。まず、ニューロンがある程度以上活性化される単語の集合を定義し、その集合内の単語間の意味的な類似度を計算します。そして、その類似度の分布のエントロピーをセマンティックエントロピーとします。

H_sem(l, k) = – Σ p_i log₂ p_i

ここで、

l：層のインデックス
k：ニューロンのインデックス
p_i：意味類似度の範囲を分割した各ビンにおける確率

具体例を挙げると、「動物」という概念に強く反応するニューロンは、`犬`、`猫`、`鳥`などの単語に対して高い活性化を示し、`車`、`家`、`木`などの単語にはほとんど反応しないため、セマンティックエントロピーが低くなります。

TopK LMsと従来の言語モデルの比較：スパース性が専門化を促進する

論文では、TopK LMsと従来の言語モデル（ベースラインモデル）のトークンエントロピーとセマンティックエントロピーを比較しています。その結果、TopK LMsはベースラインモデルに比べて、全体的にエントロピーが低いことが示されました。これは、TopK LMsのニューロンがより専門化されており、特定の単語や概念に対してより選択的に反応していることを意味します。

特に、TopK LMsの最終層（非TopK層）では、再びエントロピーが上昇する傾向が見られました。これは、最終層ではより高次の抽象的な特徴が学習されるためだと考えられます。

TopK活性化関数によってスパース性が高められることで、ニューロンがより専門的な役割を担うようになり、モデル全体の解釈可能性が向上すると考えられます。

まとめ：内部表現の可視化がもたらす洞察

トークンエントロピーとセマンティックエントロピーを用いた分析は、TopK LMsの内部表現がどのように形成されるかを理解するための強力なツールです。これらの指標を通じて、モデルが言語の構造や意味をどのように学習しているかを可視化することで、より高度な言語モデルの開発に貢献できる可能性があります。

次のセクションでは、これらの専門化されたニューロンを実際に操作することで、テキスト生成を制御する「概念ステアリング」という手法について解説します。

概念ステアリング：ニューロン操作によるテキスト生成制御

TopK言語モデル（LMs）の真価は、その解釈可能性と制御可能性にあります。前のセクションでは、TopK LMsが学習したニューロンが特定の概念を専門的に表現することを見てきました。このセクションでは、さらに踏み込んで、これらのニューロンを実際に操作することで、テキスト生成を制御できることを示します。

概念ステアリングとは？

概念ステアリングとは、モデル内の特定のニューロンの活動を意図的に変化させることで、モデルの出力（ここでは生成されるテキスト）を特定の方向に誘導する技術です。これは、まるで自動車のハンドルを操作して進む方向を変えるように、モデルの「思考」を操作するイメージです。

実験設定：特定のニューロンを「増幅」する

論文では、以下の手順で概念ステアリングの実験を行っています。

ターゲットニューロンの選定：セマンティックエントロピーが低いニューロン（特定の概念に特化しているニューロン）を選択します。
概念の特定：選択したニューロンが強く反応するトークンを分析し、そのニューロンが表現する概念（例：”work”, “numbers”, “history”）を特定します。
活性の増幅：すべての入力シーケンスの位置で、ターゲットニューロンの活性に一定のオフセット（δ）を加えます。これは、そのニューロンの活動を人工的に「増幅」する操作です。

実験結果：テキスト生成の変化

概念ステアリングの結果は非常に興味深いものでした。例えば、”work”（仕事）という概念に関連付けられたニューロンを増幅すると、モデルは以下のような、仕事に関連するテキストを生成するようになりました（表2を参照）。

例：”work”ニューロンを増幅した場合の生成テキスト

Once upon a time, there was a huge power plant that was being pushed by a few people at one of the most challenging projects in the world. The engine was being driven by a huge engine which was being driven by a huge to be made to be driven by a vehicle which was being driven by the power of a huge drive.

この例からわかるように、特定のニューロンを操作することで、モデルの出力に明確な影響を与えることが可能です。これは、TopK LMsがSAEのように、個々のニューロンが特定の概念を表現しており、それらを操作することでテキスト生成を制御できることを示しています。

概念ステアリングの応用例

概念ステアリングは、単にテキスト生成を制御するだけでなく、以下のような応用も期待できます。

モデルのバイアス軽減：特定の属性（性別、人種など）に関連するニューロンの活動を抑制することで、バイアスの少ないテキスト生成を実現できます。
特定のスタイルのテキスト生成：特定の感情やトーンに関連するニューロンを強調することで、特定のスタイルのテキストを生成できます。
モデルの解釈可能性向上：ニューロンの活動と生成テキストの関係を分析することで、モデルがどのように意思決定を行っているかを理解できます。

まとめ

TopK LMsにおける概念ステアリングは、モデルの解釈可能性と制御可能性を両立させる強力な技術です。特定のニューロンを操作することで、テキスト生成を意図した方向に誘導できることは、TopK LMsが単なるブラックボックスではなく、人間が理解し、制御できるAIシステムであることを示しています。この技術は、AIの信頼性と安全性を高めるための重要な一歩となるでしょう。