ReCodeでAIを賢く！計画と実行を統一する新手法

紹介論文
1. この論文を一言でまとめると
はじめに：AIエージェントの限界とReCodeの登場
ReCodeとは？計画と行動をコードで統一
ReCodeの優れた点：学習効率と汎用性の向上
実験結果から見るReCodeのパフォーマンス
ReCodeの可能性と今後の展望

紹介論文

今回紹介する論文はReCode: Unify Plan and Action for Universal Granularity Controlという論文です。

https://arxiv.org/pdf/2510.23564v1.pdf

この論文を一言でまとめると

AIエージェントの柔軟性を高めるReCodeを紹介。計画と実行を統合し、多様なタスクに対応可能にします。具体的な構成や実験結果を基に、ReCodeの実用性と将来の展望を解説します。

はじめに：AIエージェントの限界とReCodeの登場

現代のAIエージェントは、目覚ましい進化を遂げていますが、現実世界の複雑なタスクに対応する上で、いくつかの根本的な限界を抱えています。特に、柔軟性の欠如は深刻な問題です。人間は、状況に応じて意思決定の粒度を細かくしたり、大まかにしたりと、臨機応変に対応できます。しかし、既存のAIエージェントは、この粒度を柔軟に操作する能力に欠けているため、複雑なタスクに対応しきれない場合があります。

この柔軟性の欠如は、既存のAIエージェントが抱える計画と実行の分離という課題に起因します。多くのAIエージェントは、高レベルの計画と低レベルの行動を厳格に分離しており、これが動的な適応を妨げ、汎化能力を制限しているのです。

例えば、ReActエージェント（Yao et al., 2023）は、推論と原始的な行動を交互に繰り返すことでタスクを進めます。しかし、このアプローチでは、戦略的な先見性を持たずに細かい意思決定を繰り返すため、複雑な問題解決には不向きです。また、プランナーモジュールを持つエージェントも、高レベルの計画と低レベルの行動を事前定義された構造で分離するため、現実世界の予測不可能な環境では、その能力を十分に発揮できません。

それでは、どうすればAIエージェントに柔軟性を持たせることができるのでしょうか？

その答えの一つが、今回ご紹介するReCode（Recursive Code Generation）です。ReCodeは、計画と行動を単一のコード表現に統合することで、AIエージェントが意思決定の粒度を動的に制御できるようにする、革新的なパラダイムです。人間の脳は、意思決定を異なる粒度で管理できる統合的なアプローチを持っています。ReCodeは、この人間の認知の流動的な適応性をAIエージェントで実現することを目指しているのです。

ReCodeを導入することで、AIエージェントは、状況に応じて適切なレベルで意思決定を行い、より複雑なタスクを効率的にこなせるようになります。次のセクションでは、ReCodeの基本的な概念とアーキテクチャについて詳しく解説します。

人間の認知科学の研究からインスピレーションを得て、AIエージェントの新たな可能性を切り開くReCode。その革新的なアプローチは、今後のAI研究に大きな影響を与えるかもしれません。

ReCodeとは？計画と行動をコードで統一

AIエージェントが複雑なタスクをこなすためには、状況に応じて柔軟に判断し、行動を切り替える能力が不可欠です。しかし、既存のAIエージェントは、高レベルな計画と低レベルな行動を別々に処理するため、この柔軟性に欠けていました。そこで登場したのが、ReCode (Recursive Code Generation)です。ReCodeは、計画と行動を単一のコード表現に統合することで、AIエージェントの意思決定プロセスを根本的に改善する、革新的なパラダイムなのです。

ReCodeの基本的な概念：計画と行動を一体化

ReCodeは、計画と行動を区別せず、どちらも異なる粒度での意思決定として捉えます。つまり、高レベルな計画は、抽象的なプレースホルダー関数として表現され、より具体的な行動へと再帰的に分解されるのです。このプロセスによって、計画と行動の境界線が曖昧になり、AIエージェントは状況に合わせて最適な粒度で意思決定できるようになります。

ReCodeのアーキテクチャ：再帰的なコード生成

ReCodeのアーキテクチャは、以下の3つの主要なステップで構成されています。

初期化：タスクの指示をルールに基づいてコードに変換し、初期のプレースホルダー関数を生成します。
再帰的なコード生成：システムは、生成されたコードを深さ優先探索で解析し、プレースホルダー関数に遭遇すると、それを展開してより細かいサブ関数を生成します。
LLMベースの拡張：大規模言語モデル（LLM）を活用して、プレースホルダー関数を具体的なコードに変換します。この際、LLMには、現在の関数のシグネチャと利用可能な変数のみが提供され、不要な情報による混乱を避けます。

意思決定の粒度：階層構造による柔軟性

ReCodeでは、意思決定の粒度が自然な階層構造を形成します。例えば、「朝食を作る」という高レベルな計画は、「卵を焼く」「ベーコンを焼く」といったより細かいサブタスクに分解され、さらに「卵を割る」「フライパンを熱する」といった具体的な行動へと落とし込まれます。ReCodeは、この階層構造を柔軟に扱うことで、状況に応じた最適な意思決定を可能にするのです。

ReCodeの動作：再帰的な生成と実行

ReCodeは、再帰的な生成と実行を繰り返すことで動作します。まず、タスクの指示と初期状態からプレースホルダー関数を生成し、LLMによってコードに変換します。次に、生成されたコードを実行し、環境に働きかけます。プレースホルダー関数に遭遇すると、ReCodeは再びLLMを呼び出してコードを生成し、実行します。このプロセスを繰り返すことで、タスクは徐々に詳細な計画へと分解され、最終的には実行可能な行動として実現されます。

ReCodeの自己修正機能：エラーからの回復

ReCodeは、自己修正ループと呼ばれる仕組みを備えています。コードの実行中にエラーが発生した場合、ReCodeは元のプレースホルダー関数とエラー情報をLLMに提供し、代替となるコードの生成を試みます。この自己修正機能により、ReCodeはエラーから回復し、タスクを完了することができるのです。

ReCode：より賢いAIエージェントの実現へ

ReCodeは、計画と行動をコードで統一することで、AIエージェントに柔軟性と適応性をもたらします。これにより、AIエージェントは、より複雑なタスクを効率的にこなし、現実世界の問題解決に大きく貢献することが期待されます。

FAQ：ReCodeに関するよくある質問

Q: ReCodeはどのようなプログラミング言語を使用しますか？

A: ReCodeはPython関数呼び出しで計画と行動を表現します。

Q: ReCodeはどのようにエラーを処理しますか？

A: ReCodeは推論中に自己修正ループを使用し、実行が失敗した場合、システムは元のプレースホルダーとエラーのトレースバックを追加のコンテキストとしてポリシーを再度呼び出すことで対応します。

参考情報

プログラム合成における再帰的アプローチに関する研究
大規模言語モデルによるコード生成に関する研究

ReCodeの優れた点：学習効率と汎用性の向上

ReCodeの真価は、その学習効率と汎用性の高さにあります。既存のAIエージェントが抱える課題を克服し、より賢く、より適応的なAIの実現に貢献するReCodeの優れた点を、具体的な実験結果を交えながら解説します。

学習効率：データから最大限の知識を引き出す

ReCodeの最大の特徴の一つは、その学習効率の高さです。従来の方法では大量のデータが必要だったタスクでも、ReCodeはより少ないデータで同等以上の成果を上げることができます。これは、ReCodeの再帰的な構造が、学習データからより多くの情報を引き出すことを可能にするためです。

ReCodeは、高レベルの計画から実行可能な行動に至るまでの認知プロセス全体を捉えた、構造化された決定木を生成します。この階層的なデータ構造により、エージェントは複雑なタスクの分解や適応的な意思決定戦略を効率的に学習できます。

具体的な実験結果を見てみましょう。ScienceWorldでの実験では、ReCodeはわずか1,713ペアのデータを使用し、フィルタリングを20パーセンタイルに設定した場合に55.34%の精度を達成しました。一方、ReActは同等の精度（約60%）を達成するために12,833ペアものデータを必要としました。この結果は、ReCodeがより少ないデータでより多くの知識を学習できることを明確に示しています。

汎用性の向上：多様なタスクへの適応

ReCodeは、特定のタスクに特化したAIではありません。その設計思想は、汎用性の高いAIエージェントの実現を目指しています。ReCodeは、計画と行動を単一のコード表現に統合することで、エージェントが与えられた状況に応じて最適な粒度で意思決定を行うことを可能にします。

例えば、ALFWorldのような家庭環境でのタスクでは、ReCodeは高いレベルでの計画能力を発揮し、効率的なタスク遂行を実現します。一方、WebShopのようなオンラインショッピングのタスクでは、ReCodeは詳細な商品検索や価格比較などの細かい行動を柔軟に実行することができます。

ReCodeのこの柔軟性こそが、様々なタスクに対応できる汎用性の源です。

実験結果：３つの環境でのパフォーマンス比較

ReCodeのパフォーマンスを検証するために、ALFWorld、WebShop、ScienceWorldという３つの異なる環境で実験が行われました。これらの環境は、AIエージェントにとってそれぞれ異なる課題を提供します。

ALFWorld: 家庭内でのオブジェクトのナビゲーションと操作
WebShop: オンラインでの製品検索と購入
ScienceWorld: 科学実験のシミュレーション

実験の結果、ReCodeはすべての環境において、既存のAIエージェントを上回るパフォーマンスを示しました。特に、ALFWorld環境では、ReCodeは既知のタスクで83.57%、未知のタスクで96.27%という驚異的なスコアを達成し、その高い汎用性を証明しました。

データ効率の分析：なぜReCodeは少ないデータで学習できるのか？

ReCodeが少ないデータで高いパフォーマンスを発揮できる理由を明らかにするために、データ効率に関する詳細な分析が行われました。その結果、ReCodeの階層的なデータ構造が、トレーニングデータからより多くの学習シグナルを引き出すことが明らかになりました。

ReCodeは、タスクをより小さなサブタスクに分解し、それぞれのサブタスクを解決するための最適な行動を学習します。このプロセスを通じて、ReCodeはタスク全体を解決するためのより効率的な戦略を開発することができます。

まとめ：ReCodeがもたらすAIの未来

ReCodeは、学習効率と汎用性という２つの重要な側面において、既存のAIエージェントを大きく上回るパフォーマンスを示しました。ReCodeの登場は、より賢く、より適応的なAIエージェントの開発に向けた大きな一歩となるでしょう。

ReCodeは、AI技術の可能性を広げ、私たちの生活をより豊かにする未来を切り開く可能性を秘めています。

実験結果から見るReCodeのパフォーマンス

実験設定：３つの環境と評価方法

ReCodeの性能を測るため、以下の３つの環境で実験を行いました。

* **ALFWorld**：家庭内でのタスクをこなす環境です。物を探したり、特定の場所に移動したりといった行動が求められます。
* **WebShop**：オンラインショッピングを模した環境です。商品検索、比較、購入といったECサイトでよくあるタスクを行います。
* **ScienceWorld**：科学実験を行う環境です。実験器具の操作や科学知識の応用が必要です。

これらの環境で、ReCodeは既存のAIエージェント（ReAct、CodeActなど）と比較されました。また、ReCode自身の学習効率を評価するため、教師ありFine-tuning（SFT）による実験も行っています。

主な実験結果：ReCodeの圧倒的な優位性

実験の結果、ReCodeは３つの環境すべてにおいて、既存手法を大幅に上回るパフォーマンスを示しました。特に、ALFWorld環境では、未知のタスクに対する適応能力が際立っており、他の追随を許しません。WebShop環境でも、既存手法に対し21.9%の改善を見せています。

ScienceWorld環境では、既知のデータを用いた実験ではReActと同程度の性能でしたが、未知のデータに対しては明確な改善が見られました。これは、ReCodeが持つ汎用性の高さを示す結果と言えるでしょう。

以下に、各環境におけるReCodeのパフォーマンスをまとめます。

* **全体的なパフォーマンス**：平均スコア60.8、既存手法を10.5ポイント上回る
* **ALFWorld**：既知のタスクで83.57、未知のタスクで96.27を達成
* **WebShop**：39.97のスコアでADAPTを上回る
* **ScienceWorld**：既知のデータではReActと同等、未知のデータで改善

データ効率：ReCodeは少ないデータで賢くなる

ReCodeのデータ効率は驚くべきものです。ReCodeは、既存手法よりも少ないデータで、より高いパフォーマンスを達成しています。これは、ReCodeが持つ階層的な構造が、学習データからより多くの情報を引き出すことを可能にするためです。

例えば、ScienceWorldの実験では、ReCodeはわずか1,713ペアのデータで55.34%の精度を達成しました。一方、ReActが同程度の精度（60.28%）を達成するには、12,833ペアものデータを必要としました。

アブレーション実験：最適な再帰深度とは？

ReCodeの重要な要素である再帰深度について、ScienceWorld環境でアブレーション実験を行いました。その結果、再帰深度が8の時に最高のパフォーマンスが得られることがわかりました。再帰深度が浅すぎると、タスクを十分に分解できず、逆に深すぎると、意思決定プロセスが細分化されすぎてしまうことが原因と考えられます。

コスト分析：ReCodeは経済的

ReCodeは、パフォーマンスが高いだけでなく、コスト効率にも優れています。ReCodeの軌跡コストは、ReActと比較して78.9%、CodeActと比較して84.4%も低いという結果が出ています。これは、ReCodeの構造化された探索により、無駄な試行錯誤が減り、より効率的な問題解決が可能になるためです。

ReCodeは、限られた計算資源でより高度なAIエージェントを開発するための有力な選択肢となるでしょう。

実験結果が示すReCodeの可能性

これらの実験結果から、ReCodeは、AIエージェントのパフォーマンスを飛躍的に向上させる可能性を秘めた手法であることがわかります。特に、データ効率と汎用性の高さは、今後のAIエージェント開発において重要な要素となるでしょう。

ReCodeの可能性と今後の展望

ReCodeは、AIエージェントの分野に革新をもたらす可能性を秘めていますが、現状にはいくつかの限界も存在します。また、それらを克服し、より高度なAIエージェントを開発するための今後の研究の方向性も見えてきています。

ReCodeの限界

ベースモデルへの依存：ReCodeの効果は、ベースとなるLLMの推論能力に大きく依存します。推論能力が低いモデルでは、ReCodeの恩恵を十分に受けることができません。
Few-shotの例の質：Few-shotの例が不適切な場合、モデルはReCodeのフレームワークを正しく理解できず、パフォーマンスが低下する可能性があります。
構造化されたコード生成の必要性：ReCodeは特定の形式でコードを生成する必要があるため、モデルがその形式に完全に対応できない場合、性能に悪影響を及ぼす可能性があります。
パフォーマンスの一貫性：ReCodeの性能はタスクによって変動することがあり、モデルがフレームワークの基盤となるロジックを完全に把握できていないことが原因と考えられます。