低確率トークンでRL探索を深化！

紹介論文
1. この論文を一言でまとめると
RLVRの壁：探索の枯渇
重要トークンは低確率に眠る
Lp-Reg：低確率トークン活用法
実験結果：Lp-Regの実力
Lp-Regの可能性と課題

紹介論文

今回紹介する論文はLow-probability Tokens Sustain Exploration in Reinforcement Learning
with Verifiable Rewardという論文です。

https://arxiv.org/pdf/2510.03222v1.pdf

この論文を一言でまとめると

RLVRの課題である探索不足を、低確率だが重要なトークンに着目して解決するLp-Reg手法を解説。数式や実験結果を交え、その有効性と応用可能性を探ります。

RLVRの壁：探索の枯渇

近年、大規模言語モデル（LLM）は、その驚異的な性能で様々な分野に革新をもたらしています。特に、複雑な推論を必要とするタスクにおいて、LLMは目覚ましい成果を上げていますが、その裏には、RLVR（Reinforcement Learning with Verifiable Rewards：検証可能な報酬による強化学習）という強力な技術が存在します。

RLVRとは？

RLVRは、LLMが生成した推論過程や最終的な解答に対し、ルールベースの検証システムを用いて報酬を与えることで、モデルの学習を促進する手法です。従来の強化学習では、人間が報酬を与える必要がありましたが、RLVRでは検証システムが自動的に報酬を付与するため、学習の効率化と大規模化が可能になります。

RLVRのLLMへの応用

RLVRは、OpenAIのモデルやDeepSeek-R1など、最先端のLLMに採用され、その性能向上に大きく貢献しています。特に、数学オリンピックの問題や、複雑な論理パズルなど、高度な推論能力を必要とするタスクにおいて、RLVRはLLMの潜在能力を最大限に引き出すことに成功しています。

しかし、RLVRにも課題が…

しかし、RLVRを用いたLLMの学習は、決して平坦な道のりではありません。学習が進むにつれて、モデルの性能が頭打ちになり、最終的には崩壊してしまうという、探索不足という深刻な問題に直面することがあります。これは、モデルが特定の解法に偏り、新しい解法を探すことを怠ってしまうために起こります。

探索不足の原因：エントロピーの低下

探索不足の根本的な原因は、学習が進むにつれて、モデルのエントロピーが急速に低下することにあります。エントロピーとは、モデルの予測のランダム性を示す指標であり、エントロピーが低い状態は、モデルが特定の解法に過度に自信を持ち、多様な解法を試みなくなることを意味します。

従来手法の限界

従来の研究では、エントロピーを高く維持することで探索を促進しようとする試みがなされてきました。しかし、単にエントロピーを高めるだけでは、ノイズを増幅させ、かえって学習を不安定にしてしまうという問題があります。つまり、効果的な探索のためには、単にランダム性を追求するのではなく、より洗練されたアプローチが必要なのです。

本論文の着眼点：低確率トークンの重要性

本論文では、従来の探索手法とは異なる視点から、RLVRにおける探索不足の問題にアプローチします。著者らは、低確率トークン、つまり、モデルがあまり選択しないトークンの中に、重要な情報が隠されているという仮説を立て、その検証に取り組んでいます。次項では、この低確率トークンの重要性について、詳しく解説していきます。

重要トークンは低確率に眠る

大規模言語モデル（LLM）の性能を飛躍的に向上させる強化学習ですが、その過程で「探索の枯渇」という深刻な問題に直面することがあります。これは、モデルが多様な行動を試みなくなり、結果として最適な解にたどり着けなくなる現象です。従来の手法では、モデルの出力する確率分布のエントロピーを高く保つことで、この問題に対処しようとしてきました。しかし、エントロピーをただ高くするだけでは、本当に意味のある探索には繋がらないことが分かってきました。

従来のエントロピー最大化の問題点

従来の手法は、方策のエントロピーを高く保つことが探索に繋がると考えられていましたが、これは間接的で不正確なアプローチです。なぜなら、エントロピーが高い状態は、必ずしも有益な探索行動を意味しないからです。無差別にランダム性を最大化すると、ノイズが増幅され、学習が不安定になるリスクさえあります。具体的には、文法的に不自然な単語や、文脈にそぐわない単語の出現頻度が高まり、かえって学習を妨げてしまうのです。

低確率トークンという視点

本論文では、これまで見過ごされてきた「低確率トークン」に着目することで、この問題を解決しようと試みています。低確率トークンとは、モデルが出力する可能性が低いと判断した単語や記号のことです。しかし、これらの低確率トークンの中には、モデルが新しい推論の道筋を発見するための「推論の火花（Reasoning Sparks）」となるものが含まれているのです。

「推論の火花」とは何か？

「推論の火花」の具体例としては、「待って」「しかし」「たぶん」などの言葉が挙げられます。これらの言葉は、一見すると重要ではないように思えますが、多様な推論経路を開始する論理的な接続詞や不確実性の表現として機能します。例えば、数学の問題を解く際に「しかし、別の解法もあるかもしれない」と考えることは、新しい探索の第一歩となるでしょう。また、プログラミングにおいて「たぶん、この関数は別の引数を受け取るべきだ」と考えることは、より良いコードを生み出すきっかけになるかもしれません。

低確率トークンが排除されるメカニズム

それでは、なぜこのような重要な「推論の火花」が、学習の過程で排除されてしまうのでしょうか？
論文では、標準的なGRPO（Group Relative Policy Optimization）トレーニングにおいて、重要な探索的トークンの低確率サンプリングが抑制されることを指摘しています。GRPOは、モデルの出力と正解とのずれを小さくするように学習を進めますが、その過程で、正解に繋がりそうもない低確率トークンを過度に抑制してしまうのです。さらに、無差別にランダム性を高めると、数学的推論タスクの文脈から外れた無関係なトークン（”cost”、”fine”など）の低確率サンプリングが増幅されます。これらの無関係なトークンの増幅はノイズとなり、ベースラインよりも速い性能崩壊につながるのです。

このように、従来の手法では、探索の重要性を理解しているにも関わらず、その具体的なメカニズムを捉えきれていませんでした。その結果、重要な低確率トークンを排除してしまい、モデルの探索能力を損なっていたのです。次のセクションでは、本論文で提案されている、この問題を解決するための新しい手法、Lp-Regについて解説します。

Lp-Reg：低確率トークン活用法

前のセクションでは、従来の探索手法では見過ごされがちだった「低確率トークン」こそが、大規模言語モデル（LLM）の推論能力を飛躍的に向上させる鍵となる可能性について解説しました。このセクションでは、その可能性を最大限に引き出すために提案された手法、Lp-Reg（Low-probability Regularization）の仕組みを、数式を交えながら分かりやすく解説していきます。

Lp-Regは、一言で言うと、「価値のある低確率トークンを保護する」ための技術です。従来の探索手法とは異なり、単にエントロピーを最大化するのではなく、LLM自身が持つ予測分布を活用することで、ノイズとなるトークンを除去し、本当に重要なトークンに焦点を当てます。これにより、探索の効率と安定性を両立させることが可能になります。

Lp-Regの概要：ノイズ除去と選択的保護

Lp-Regの核心は、無差別に低確率トークンを扱うのではなく、その中でも「推論の火花（Reasoning Sparks）」となりうるトークンを選択的に保護することにあります。具体的な手順は以下の通りです。

ノイズトークンのフィルタリング：確率が閾値τを下回るトークンを、ノイズとして除去します。この閾値τは、固定値またはピーク確率に対する相対値として設定可能です。
確率の再正規化：除去されたトークンの確率を、残りの候補トークンに再分配します。これにより、価値のある低確率トークンの相対的な重要度が増します。
正則化：元のポリシーと、ノイズが除去されたプロキシ分布との乖離にペナルティを課します。これにより、重要なトークンが不当に排除されるのを防ぎます。

Lp-Regを支える数式

Lp-Regの動作をより深く理解するために、論文に記載されている目的関数を見てみましょう。


J(θ) = E_{B~D,(q,a)~B,{o_i}~π_θold(·|q)} [ 1/G Σ_{i=1}^{G} Σ_{t=1}^{|o_i|} clip(r_{i,t}(θ), ε, U) · A_{i,t}
    - β · I[π_θ(o_{i,t}|q,o_{i, 0 ∧ A_{i,t} < 0]
    · D_{KL}(π_proxy(·|q,o_{i,


数式だけを見ると難解に感じるかもしれませんが、各項の意味を理解すれば、Lp-Regの意図が見えてきます。

第1項：これは、GRPO（Group Relative Policy Optimization）からのポリシー勾配目的です。LLMの行動を、より良い方向へ導くための基本的な項と言えます。
第2項：これがLp-Regの核心部分です。低確率トークンを保護するためのペナルティであり、以下の3つの条件を満たす場合にのみ適用されます。

トークンの確率 π_θ が、動的な閾値 δ_β を下回る
プロキシ分布 π_proxy における確率がゼロより大きい（ノイズとして除去されていない）
トークンが負のAdvantage（A_{i,t} < 0）を持つ

  つまり、普段は目立たないものの、潜在的に重要なトークンが、誤って悪い評価を受けて排除されそうになった場合に、Lp-Regが介入し、そのトークンを保護するのです。
D_{KL}：KLダイバージェンス（Kullback-Leibler divergence）は、2つの確率分布の類似度を測る指標です。ここでは、プロキシ分布 π_proxy と実際のポリシー π_θ の乖離を測り、乖離が大きいほどペナルティが大きくなります。

プロキシ分布：LLMの知識を最大限に活用
Lp-Regの重要な要素の一つが、プロキシ分布 π_proxyです。これは、現在のポリシー π_θ を基に構築された、ノイズの少ない、より洗練された確率分布です。プロキシ分布を導入することで、Lp-Regは、LLM自身の知識を活用しながら、探索の方向性を定めることができます。
従来の探索手法が、外部からの信号（例えば、報酬）に頼って探索を行うのに対し、Lp-Regは、LLM内部に眠る知識を最大限に活用することで、より効率的かつ安定的な探索を実現していると言えるでしょう。
次のセクションでは、Lp-Regの有効性を検証するために行われた実験の結果を見ていきましょう。
実験結果：Lp-Regの実力
本セクションでは、Lp-Regの有効性を検証するために行われた実験設定と結果を詳細に分析し、その性能を評価します。Lp-Regが、いかにして大規模言語モデルにおける探索の深化に貢献するかを見ていきましょう。
実験設定：数学的推論ベンチマークへの挑戦
Lp-Regの性能を測るため、以下の設定で実験が行われました。

データセット: Dapo-Math-17Kデータセットを使用
ベースモデル: Qwen3-14B-BaseとQwen2.5-32Bの2種類
評価ベンチマーク: AIME24, AIME25, MATH-500, OlympiadBench, Minerva Mathという、多様な数学的推論能力を測る5つのベンチマークを使用
比較対象: GRPO、GRPO + Entropy Loss、Clip-Higher、Selective High-Entropy Training (80/20)、KL-Cov、GSPOといった、既存の探索手法

これらの設定により、Lp-Regが様々な状況下で、既存手法と比較してどれだけ優れているかを検証しました。
実験結果：最先端の性能を達成
実験の結果、Lp-Regは以下の点で優れた性能を示しました。

最先端の性能: 14Bと32Bの両方のモデルスケールにおいて、5つの数学的推論ベンチマーク全体で最先端の性能を達成
Qwen3-14Bモデルでの大幅な精度向上: 平均60.17%の精度を達成し、次善の手法を2.66%も上回る
新しいモデルへの適応性: 古いQwen2.5-32Bモデルと比較して、新しいQwen3-14Bベースモデルでより顕著な性能向上を示し、Lp-Regが最新のモデルの潜在能力を引き出す能力があることを示唆
オンポリシーとオフポリシーの両方で有効: ポリシー固有の正則化により、データサンプリングとトレーニングポリシーのミスマッチによる分布のずれを回避。他の手法がオフポリシー重要度サンプリングに依存するのとは対照的

これらの結果は、Lp-Regが単に既存手法を上回るだけでなく、より安定した学習と、新しいモデルへの適応性をも提供することを示しています。
探索とエントロピー：Lp-Regがもたらす変化
Lp-Regは、単に性能を向上させるだけでなく、学習プロセスにおけるエントロピーの挙動にも変化をもたらします。

動的なエントロピー制御: Clip-Higherのような手法とは異なり、Lp-Regはエントロピーを一方的に増加させるのではなく、学習の初期段階でエントロピーを減少させ、コアとなる推論パターンを学習。その後、パフォーマンス向上に合わせて徐々にエントロピーを増加させ、探索を促進。最終的には、精度が収束するにつれて健全な範囲内で安定

この動的なエントロピー制御こそが、Lp-Regが探索と利用のバランスを最適化し、過剰な探索や探索不足に陥ることなく、効率的な学習を可能にしている要因と言えるでしょう。
Lp-Regは、数々の実験でその実力を証明しました。最先端の性能、新しいモデルへの適応性、そして動的なエントロピー制御。これらの要素が組み合わさることで、Lp-Regは大規模言語モデルの学習における新たな可能性を切り開いています。
Lp-Regの可能性と課題
Lp-Regは、RLVRにおける探索の新たな地平を切り開きましたが、まだ発展途上の技術です。ここでは、今後の展望、現時点での課題、そして実用化に向けたステップを考察します。
今後の展望：広がるLp-Regの応用
Lp-Regの可能性は、数学的推論に留まりません。他の推論タスクや、異なるアーキテクチャのモデルへの応用も期待されます。特に、以下のような方向性が考えられます。

タスクの多様化：テキスト生成、対話システム、ゲームなど、探索が重要な役割を果たす様々なタスクへの適用。
アーキテクチャの拡張：Transformer以外のアーキテクチャ（RNN、CNNなど）へのLp-Regの組み込み。
探索手法との融合：既存の探索戦略（ε-greedy、ノイズ注入など）とLp-Regを組み合わせることで、更なる性能向上の可能性。
プロキシ分布の進化：より洗練されたプロキシ分布の構築（敵対的生成ネットワーク（GAN）の利用など）。
正則化の効率化：計算コストを削減するための、より効率的な正則化手法の開発（蒸留、量子化など）。

現時点での課題：克服すべき壁
Lp-Regは有望な手法ですが、実用化に向けてはいくつかの課題を克服する必要があります。

ハイパーパラメータの調整：低確率トークンの閾値τや、KL正則化係数βなど、タスクやモデルに合わせたハイパーパラメータの調整が不可欠。
計算コスト：特に大規模モデルでは、プロキシ分布の構築やKLダイバージェンスの計算に大きな計算コストがかかる。
理論的解釈の深化：なぜLp-Regが有効なのか、その理論的な解釈を深めることで、よりロバストな手法の開発に繋がる。

実用化に向けたステップ：Lp-Regの未来
Lp-Regを実用的な技術として確立するためには、以下のようなステップが考えられます。

性能評価の徹底：様々なタスクやモデルでLp-Regの性能を評価し、適用範囲を明確にする。
自動調整手法の開発：ハイパーパラメータを自動的に調整する手法を開発し、Lp-Regの使いやすさを向上させる。
計算コストの削減：プロキシ分布の近似や、KLダイバージェンスの効率的な計算手法を開発し、計算コストを削減する。
フレームワークへの統合：PyTorchやTensorFlowなどの既存の強化学習フレームワークにLp-Regを統合し、開発者が容易に利用できるようにする。
実用的な問題への応用：実世界の様々な問題にLp-Regを応用し、その有効性を検証する。

Lp-Regを実装する際には、プロキシ分布の構築とKLダイバージェンスの計算を効率的に行うことが重要です。ハイパーパラメータの調整には、Ablation Studyが役立ちます。
Lp-Regは、RLVRにおける探索不足という課題に対する promising な解決策です。今後の研究開発によって、その可能性はさらに広がることが期待されます。
出典


Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou. Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward. 2025.
 

Kevin Murphy. Reinforcement learning: an overview. arXiv preprint arXiv:2412.05265, 2024.