RLでAIの記憶力UP!? 忘却を防ぐ新手法

紹介論文
1. この論文を一言でまとめると
AIの「忘却」問題とは？
強化学習(RL) vs 教師あり学習(SFT)：記憶保持力の比較
なぜRLは忘却に強いのか？鍵は「オンポリシーデータ」
実用的な応用：近似オンポリシーデータで効率的な忘却対策
今後の展望：継続学習エージェントへの応用と課題

紹介論文

今回紹介する論文はRetaining by Doing: The Role of On-Policy Data in Mitigating Forgettingという論文です。

https://arxiv.org/pdf/2510.18874v1.pdf

この論文を一言でまとめると

AIモデルの「忘却」問題に着目し、強化学習(RL)が教師あり学習(SFT)よりも記憶保持に優れることを解説。その理由と実用的な応用、今後の展望までを分かりやすく紹介します。

AIの「忘却」問題とは？

AI（人工知能）は、私たちの生活やビジネスに革命をもたらしていますが、その発展の過程で、ある深刻な問題が浮上してきました。それが、AIの「忘却」問題です。この記事では、AIの忘却問題とは何か、なぜそれが重要なのかを解説します。

AIも忘れる？

人間が経験や学習したことを忘れてしまうように、AIモデルも学習後に過去の知識や能力を失ってしまうことがあります。これは「壊滅的忘却（Catastrophic Forgetting）」と呼ばれ、特に深層学習モデルにおいて顕著に現れる現象です。

たとえば、あるAIモデルが画像認識タスクで猫の画像を学習した後、犬の画像を学習すると、猫の画像を認識する能力が低下してしまうことがあります。これは、新しい情報（犬）を学習する過程で、古い情報（猫）が上書きされてしまうために起こります。

なぜ忘却が問題なのか？

AIの応用範囲が広がるにつれて、単一のタスクだけでなく、複数のタスクを継続的に学習し、実行できる能力が求められるようになっています。自動運転、医療診断、顧客サポートなど、現実世界の複雑な問題に対処するためには、AIモデルが常に最新の情報と過去の知識を保持し、適応的に学習する必要があります。

AIが忘却してしまうと、次のような問題が生じます。

* **性能低下**：以前は正しく実行できていたタスクの精度が低下する。
* **再学習の必要性**：忘れてしまった知識を回復するために、再度学習を行う必要がある。
* **資源の浪費**：再学習には時間や計算リソースがかかり、効率が低下する。
* **信頼性の低下**：状況に応じて適切な判断ができなくなるため、AIの信頼性が損なわれる。

つまり、忘却はAIモデルの信頼性、安全性、公平性を損なう可能性があり、社会的な影響も大きいのです。

忘却問題への挑戦：本論文の貢献

本論文「Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting」は、この壊滅的忘却を軽減するためのガイドラインを特定することを目的としています。特に、強化学習（RL）と教師あり学習（SFT）という2つの代表的な学習方法を比較し、RLが忘却を抑制する効果において、SFTよりも優れていることを実験的に示しています。

本論文では、なぜRLがSFTよりも忘却に強いのか、その理由を深掘りし、実用的な応用方法を提案しています。さらに、今後の展望として、AIエージェントの継続学習への応用や課題についても議論しています。

本記事では、AIの忘却問題の概要と、本論文がこの課題にどのように取り組むかを解説します。次のセクションでは、RLとSFTの記憶保持力を比較し、実験結果を詳しく見ていきましょう。

強化学習(RL) vs 教師あり学習(SFT)：記憶保持力の比較

AIモデルの学習方法として代表的な強化学習(Reinforcement Learning: RL)と教師あり学習(Supervised Fine-Tuning: SFT)。本セクションでは、この2つの学習方法を比較し、AIモデルが過去の知識をどれだけ保持できるか、つまり記憶保持力に焦点を当てて解説します。論文「Retaining by Doing」では、実験を通してRLがSFTよりも忘却を抑制する効果が高いことを示しています。それでは、詳細を見ていきましょう。

RLとSFT、それぞれの概要

まずは、RLとSFTそれぞれの学習方法の概要を把握しましょう。

教師あり学習(SFT)とは

教師あり学習(SFT)は、ラベル付けされたデータセットを用いて、モデルが入力と出力の間の関係性を学習する方法です。
自然言語処理(NLP)の分野では、プロンプト（指示）に対して正解となる応答を学習させることで、大規模言語モデル(LLM)を特定のタスクに適応させるために広く用いられています。
SFTの学習目標は、正解データとモデルの予測との間のクロスエントロピー損失を最小化することです。

強化学習(RL)とは

強化学習(RL)は、エージェントが環境との相互作用を通して、報酬を最大化するように学習する方法です。
NLPの分野では、人間のフィードバックや報酬モデルを用いて、LLMの応答を人間の好みや価値観に合わせるために用いられます。
RLの学習目標は、KL正則化された報酬を最大化することです。
KL正則化とは、モデルの学習における安定性を高めるテクニックの一つ。急激な変化を抑え、よりスムーズな学習を促します。

実験設定：LLMの記憶保持力を測る

論文では、LLMの記憶保持力を測定するために、以下のような実験設定を行っています。

使用モデル: Llama 3, Qwen 2.5など
タスク: 命令遂行、一般知識、算術推論
学習方法: SFTとRLの2種類
評価指標: ターゲットタスクの精度と非ターゲットタスクの精度低下（忘却の程度）

実験結果：RLはSFTよりも忘却しにくい！

実験の結果、以下のことが明らかになりました。

RLはSFTと比較して、同等またはそれ以上のターゲットタスクの性能を達成しながら、忘却を大幅に軽減する。
この傾向は、様々なLLMファミリーとタスクで一貫して観察された。
SFTは、ターゲットタスクの精度を向上させるものの、非ターゲットタスクの精度を大幅に低下させる傾向がある。
RLは、ターゲットタスクの精度を向上させながら、非ターゲットタスクの精度低下を最小限に抑えることができる。

これらの結果から、RLはSFTよりも記憶保持力に優れていると言えます。

なぜRLは忘却に強いのか？

従来の考え方では、SFTの方がRLよりも忘却しにくいと考えられていました。しかし、実験結果はこれに反しており、RLが忘却抑制に優れることが示されました。この理由を解明するために、論文では、RLがオンポリシーデータを使用することに着目しています。オンポリシーデータについては、次セクションで詳しく解説します。

SFTがRLより優れているケースも

ただし、SFTが常にRLより劣るわけではありません。特定のタスクにおいては、SFTの方がRLよりも高い精度を達成できる場合があります。そのため、タスクの特性に応じて適切な学習方法を選択することが重要です。

なぜRLは忘却に強いのか？鍵は「オンポリシーデータ」

前セクションでは、強化学習(RL)が教師あり学習(SFT)よりも、AIモデルの記憶保持において優位性を持つことをご紹介しました。では、なぜRLは忘却に対して、これほどまでに強いのでしょうか？その謎を解き明かす鍵は、RLが学習に用いるデータ、特に「オンポリシーデータ」にあります。

オンポリシーデータとは？RLの学習サイクル

オンポリシーデータとは、現在のモデルのポリシー（判断基準）に基づいて生成されたデータのことです。RLエージェントは、以下のサイクルを繰り返しながら学習を進めます。

現在のポリシーに基づいて環境を探索し、行動する。
その行動の結果（報酬）を得て、経験（データ）を収集する。
収集したデータを用いて、ポリシーを改善する。

このサイクルこそが、RLが忘却に強い最大の理由です。常に最新のポリシーに基づいてデータを収集し学習するため、モデルは過去の知識を維持しながら、新しい知識を効果的に獲得できるのです。

補足情報：オフポリシー学習という手法も存在しますが、本論文の議論の中心はオンポリシーRLです。オフポリシー学習では、過去のデータや他のエージェントのデータを利用するため、効率的な学習が可能ですが、忘却のリスクが高まる可能性があります。

SFTとの違い：固定データセットの限界

一方、SFTは、事前に用意された固定されたデータセット（オフポリシーデータ）を用いて学習します。このデータセットは、多くの場合、専門家が作成した正解データで構成されています。SFTは、このデータセットとの誤差を最小化するように学習を進めますが、以下のような問題点があります。

データセットが不完全である場合、モデルはデータセットに偏った知識を学習してしまう。
新しいタスクを学習する際に、過去のデータセットに適合するように知識を上書きしてしまう可能性がある（忘却）。

KL正則化：安定化には貢献するが…

RLでは、多くの場合、KL正則化という手法が用いられます。これは、モデルのポリシーが学習の初期段階から大きく変化しないように制限するものです。KL正則化は、モデルの安定性を高め、忘却を抑制する効果があると考えられてきました。しかし、本論文の研究では、KL正則化はRLの忘却抑制効果の主要な要因ではないことが示唆されています。KL正則化なしでも、RLはSFTよりも優れた記憶保持力を発揮するのです。

RLの「モード探求」：知識の積み重ね

RLは、数理的にはリバースKLダイバージェンスを最小化する性質を持ちます。この性質から、RLは「モード探求(Mode-Seeking)」的であると言われます。モード探求とは、データ分布の中で最も確率の高い領域（モード）に焦点を当てて学習する性質のことです。今回の論文では、RLのモード探求的な性質こそが、モデルが過去の知識を完全に上書きせずに、新しい知識を既存の知識に追加していくことを可能にし、結果として忘却を抑制すると主張しています。

数式で見るSFTとRLの学習ダイナミクス

今回の論文では、ターゲット分布を、過去の知識を表すモードと新しいタスクを表すモードの混合として表現した簡単なモデルを用いて、SFTとRLの学習ダイナミクスを数式的に説明しています。このモデルによると、SFTはフォワードKLダイバージェンスを最小化するため、新しいモードを学習する際に、過去のモードの確率質量を減少させてしまうことが示されています。一方、RLはリバースKLダイバージェンスを最小化するため、新しいモードを学習する際に、過去のモードの形状を維持し、忘却を抑制するのです。

数式による厳密な議論にご興味がある方は、ぜひ原論文の3章をご覧ください。

まとめ：RLが忘却に強いのはオンポリシーデータのおかげ

RLがSFTよりも忘却に強いのは、オンポリシーデータを用いること、そしてRLの持つモード探求という性質が組み合わさった結果であると言えるでしょう。次のセクションでは、この知見を応用し、より効率的な忘却対策を実現する方法について解説します。

実用的な応用：近似オンポリシーデータで効率的な忘却対策

前のセクションでは、強化学習(RL)が教師あり学習(SFT)よりも忘却に強い理由として、RLが「オンポリシーデータ」を使用することを解説しました。しかし、完全なオンポリシーデータを収集するには、計算コストがかかるという課題があります。そこで本セクションでは、本論文の知見を応用し、計算コストを抑えつつ忘却を効果的に軽減する「近似オンポリシーデータ」という考え方を紹介します。

完全なオンポリシーデータの課題

RLは、モデルが環境と相互作用しながら学習を進めるため、常に最新のポリシー（判断基準）に基づいたデータ（オンポリシーデータ）を使用できます。これにより、モデルは過去の知識を維持しながら、新しい知識を獲得できます。しかし、このアプローチには、以下のような課題があります。

計算コストが高い：モデルが環境と相互作用し、データを収集する必要があるため、学習プロセスが遅くなる可能性があります。
環境への依存：学習結果は、環境の質や報酬設計に大きく左右されます。

近似オンポリシーデータの提案

完全なオンポリシーデータの課題を解決するために、本論文では「近似オンポリシーデータ」を用いることを提案しています。近似オンポリシーデータとは、完全に最新のポリシーに基づいて生成されたデータではないものの、ある程度最新のポリシーを反映したデータのことです。近似オンポリシーデータを用いることで、計算コストを抑えつつ、オンポリシーデータに近い効果を得ることが期待できます。

近似オンポリシーデータの収集方法

本論文で提案されている近似オンポリシーデータの収集方法としては、主に以下の2つがあります。

Iterative-SFT：各エポック（学習サイクル）の開始時に、その時点でのモデルを用いてデータを生成し、そのデータを用いてSFT（教師あり学習）を行います。これにより、モデルは最新のポリシーを反映したデータで学習できます。
Iterative-SFTは、RAFT (Reward Augmented Fine-Tuning) や STaR (Bootstrapping Reasoning with Reasoning) といった手法と関連があります。
RLトレースを用いたSFT：RLの実行中に生成されたデータ（RLトレース）を用いてSFTを行います。RLトレースは、RLエージェントが経験した状態、行動、報酬の系列であり、ある程度最新のポリシーを反映しています。

実験結果

本論文の実験では、Iterative-SFTが、完全なオフポリシーデータを用いたSFTと比較して、ターゲットタスクの精度を向上させながら、忘却を大幅に軽減できることが示されました。また、RLトレースを用いたSFTも、忘却を軽減する効果があることが確認されました。

実践的なTipsとベストプラクティス

本論文の知見を応用する際の、実践的なTipsとベストプラクティスを以下に示します。

計算リソースが限られている場合：Iterative-SFTなどの近似オンポリシーデータを用いることを検討しましょう。完全なRLよりも計算コストを抑えられます。
既存のRLパイプラインがある場合：RLトレースを用いたSFTは、既存のRLパイプラインに簡単に組み込むことができます。
データの選択：モデルの性能と計算コストのバランスを考慮して、適切なデータを選択しましょう。例えば、より多くのエポックでIterative-SFTを行う、またはRLトレースからより多くのデータを選択するなどが考えられます。

まとめ

本セクションでは、計算コストを抑えつつ忘却を効果的に軽減する「近似オンポリシーデータ」という考え方と、その収集方法について解説しました。近似オンポリシーデータを用いることで、RLの恩恵を受けつつ、より効率的な学習が可能になります。ぜひ、この知見を活かして、AIモデルの性能向上に取り組んでみてください。

今後の展望：継続学習エージェントへの応用と課題

本研究で示された強化学習（RL）による忘却軽減の効果は、AIエージェントが現実世界でより賢く、柔軟に学習していくための重要な一歩となります。ここでは、本研究成果が今後のAI開発にどのように貢献していくのか、そして残された課題について展望します。

継続学習エージェントへの貢献

AIエージェントは、特定のタスクをこなすだけでなく、継続的に新しい情報を取り込み、過去の経験を活かしながら成長していくことが求められます。本研究は、まさにその継続学習（Continual Learning）を支える基盤技術となり得ます。

知識の有効活用： RLによって忘却が軽減されれば、AIエージェントは過去に学習した知識を失うことなく、新しいタスクに挑戦できます。これは、学習効率の向上だけでなく、より複雑な問題解決能力へと繋がります。
適応能力の向上： 現実世界は常に変化し続けます。RLによる継続的な学習は、AIエージェントが環境の変化に適応し、状況に応じた最適な行動を選択することを可能にします。
応用範囲の拡大： 医療診断、教育、自動運転など、様々な分野でAIエージェントの活用が期待されています。本研究は、これらの分野におけるAIの可能性をさらに広げる力となるでしょう。

今後の研究課題

本研究は大きな前進ですが、より実用的な技術へと発展させるためには、以下の課題に取り組む必要があります。

多様なタスク・モデルでの検証： 今回の研究では、特定のタスクとモデルを使用しました。より多様なタスクやモデルでRLの効果を検証し、その普遍性を確認する必要があります。
近似オンポリシーデータの最適化： 近似オンポリシーデータの収集方法や、その効果に影響を与える要因を特定することで、より効率的な忘却対策を確立する必要があります。
より包括的な評価指標の開発： 忘却の程度を測る指標として、非ターゲットタスクの精度低下だけでなく、知識の想起率や学習速度など、多角的な視点を取り入れた評価指標の開発が求められます。
他の手法との組み合わせ： 本研究の成果を、他の継続学習手法（例：Gradient Episodic Memory）と組み合わせることで、より強力な忘却対策を開発できる可能性があります。