LLMはテキストゲームを攻略できる？

紹介論文
1. この論文を一言でまとめると
TextQuestsとは？LLMの新たな挑戦
TextQuestsの詳細：ゲームと評価の仕組み
LLMの性能比較：TextQuestsの結果分析
LLMの限界と未来への展望：TextQuestsからの洞察
TextQuestsの独自性：従来のベンチマークとの違い

紹介論文

今回紹介する論文はTextQuests: How Good are LLMs at Text-Based Video Games?という論文です。

https://arxiv.org/pdf/2507.23701v1.pdf

この論文を一言でまとめると

TextQuestsは、LLMのテキストベースゲームにおける性能を評価する新しいベンチマークです。長文脈の理解、推論、計画能力を試すことができ、AIエージェントの新たな評価基準を提供します。

TextQuestsとは？LLMの新たな挑戦

大規模言語モデル（LLM）の進化は目覚ましいですが、その真価を測るには、現実世界の複雑さを反映した環境での評価が不可欠です。そこで登場したのが、テキストベースのビデオゲームを舞台とした新しいベンチマーク、TextQuestsです。

TextQuestsとは？

TextQuestsは、かつて人気を博したInfocom社のインタラクティブフィクションゲームを基盤としています。これらのゲームは、プレイヤーが30時間以上かけて、数百もの正確なアクションを駆使して攻略する必要がある、非常に複雑なものです。

TextQuestsの最大の特徴は、LLMが外部ツールを一切使用せず、自らの内在的な推論能力のみを頼りに、試行錯誤を繰り返しながら問題を解決していく能力を評価することにあります。これは、従来のベンチマークとは大きく異なる点です。

従来の評価方法との違い

従来のAIエージェントの評価は、特定のスキル（ツール使用、構造化されたタスクの遂行能力など）に焦点を当てたものが主流でした。しかし、TextQuestsは、より自律的な探索環境におけるLLMの能力、つまり、

自己主導的な推論
長期的な文脈理解

といった、より高度な能力を評価することを目指しています。

TextQuestsの重要性

現実世界の課題を模倣した複雑な環境でAIエージェントを評価することは、その実用的な能力を理解するために非常に重要です。TextQuestsは、LLMエージェントの能力をより正確に評価するための新たな評価基準を提供し、より堅牢な内在的推論能力を持つエージェントの開発を促進します。

TextQuestsに関するFAQ

Q: TextQuestsはどのような種類のゲームを使用していますか？

A: TextQuestsは、Infocomによって開発された古典的なインタラクティブフィクションゲームを使用しています。

Q: TextQuestsは何を評価しますか？

A: TextQuestsは、LLMエージェントの自己完結型の問題解決能力、長期的な文脈推論能力、および試行錯誤による学習能力を評価します。

Q: TextQuestsの結果はどのように使用されますか？

A: TextQuestsの結果は、LLMエージェントの改善、新しいベンチマークの開発、およびAI研究の進歩に使用できます。

TextQuestsは、LLMの新たな挑戦を映し出す鏡です。このベンチマークを通して、LLMの可能性と限界を理解し、より賢く、より人間らしいAIエージェントの開発を目指しましょう。

TextQuestsの詳細：ゲームと評価の仕組み

TextQuestsは、LLMの能力を測るための新たな舞台です。ここでは、その具体的な内容、つまりどのようなゲームで、どのように評価するのかを詳しく見ていきましょう。技術的な側面を理解することで、TextQuestsがLLMの真の力を引き出す評価方法であると納得いただけるはずです。

ゲームの種類：過去の名作がLLMを苦しめる

TextQuestsの挑戦者は、難易度が異なる25種類の古典的なインタラクティブフィクションゲームです。これらのゲームは、1980年代にInfocomという会社によって開発され、プレイヤーは自然言語のコマンドを使って、ストーリー豊かな世界を冒険します。例えば、以下のようなゲームが含まれています。

* Zork I
* Seastalker
* The Hitchhiker’s Guide to the Galaxy（銀河ヒッチハイクガイド）

これらのゲームは、一見シンプルに見えますが、クリアには非常に複雑な思考力と、根気強い探索が必要です。LLMは、これらのゲームを通して、人間のような「ひらめき」や「試行錯誤」を体験することになります。

評価方法：客観的な指標でLLMの進捗を測る

TextQuestsの評価は、ターン制で進みます。各ターンで、LLMエージェントはゲーム世界から最新の情報を得て、それを過去のすべての情報、推論、行動の記録に追加します。そして、この完全な記録を基に、次に取るべき行動を推論し、実行可能なコマンドを生成します。

評価は、以下の2つのモードで行われます。

* WITH CLUES：ゲームに付属する公式ヒント（InvisiClues）へのアクセスあり
* NO CLUES：ヒントなし

この評価方法により、LLMがヒントをどのように活用し、またヒントなしでどこまで自力で解決できるのかを客観的に評価できます。

Autosave機能：人間のプレイスタイルをAIに

TextQuestsには、Autosave機能が搭載されています。この機能により、LLMエージェントは、ゲーム内の任意の時点に自由に復元（バックトラック）できます。これは、人間がゲームをプレイする際に頻繁に行う「セーブ＆ロード」を模倣したものです。

Autosave機能は、LLMが様々な戦略を試したり、失敗から学んだりすることを容易にし、結果として、ゲームプレイのパフォーマンスを大幅に向上させることが示されています。

この機能は、LLMが試行錯誤を繰り返しながら、最適な戦略を見つけ出すことを助けます。まるで、人間がゲームをプレイするように、AIも「やり直し」をしながら成長していくのです。

ゲーム進捗指標：真の進捗を可視化する

TextQuestsでは、従来のゲームに組み込まれたスコアリングシステムではなく、主要なパズルやゲームの節目となるポイント（マイルストーン）に対してラベル付けされたチェックポイントに基づいた、新しいゲーム進捗指標を採用しています。この指標は、ゲームクリアに向けた実際の進捗をより正確に把握し、人間のプレイヤーを評価する際の曖昧さを排除します。

従来のスコアリングシステムは、探索や特定の行動に対する報酬として設計されていることが多く、ゲームクリアへの直接的な貢献度を測るには不十分でした。

Harm指標：AIの倫理的な側面も評価

TextQuestsは、LLMの倫理的な側面も評価します。Hendrycksらが提案したフレームワークを基に、ゲーム内の行動が道徳的に問題ないかを判断し、Harm指標として数値化します。これにより、LLMが倫理的なジレンマにどのように対処するのかを評価し、より安全で信頼できるAIの開発を目指します。

TextQuestsは、単なるゲームのクリアだけでなく、LLMの思考プロセス、学習能力、そして倫理観までをも評価する、非常に高度なベンチマークなのです。

LLMの性能比較：TextQuestsの結果分析

TextQuestsは、さまざまなLLMの能力を評価するための貴重なプラットフォームです。ここでは、主要なLLMのTextQuestsでのパフォーマンスを比較分析し、成功事例と失敗事例を通して、LLMの得意分野と課題を明らかにします。

主要なLLMのパフォーマンス

TextQuestsでは、Grok、Claude、Geminiなど、さまざまなクローズドソースおよびオープンソースのLLMを評価しています。初期の結果では、最先端のLLMであっても、支援なしにゲームを解決する上であまり進歩が見られないことが示されています。しかし、WITH CLUES設定では、完全なヒントへのアクセスにより、すべてのモデルがより大幅な進歩を遂げています。

成功事例

* Gemini 2.5 Proとo3：Plunderedheartsを含む3つのゲームを解決。
* Opus 4：Seastalkerも解決し、合計4つのゲームを完了。

これらの成功事例は、LLMが長文脈の理解や推論能力を活用することで、複雑な問題を解決できる可能性を示唆しています。

失敗事例

多くのLLMは、以下のような課題に直面しています。

* ゲームの前提とルールを理解すること
* パズルを解決するために必要な情報を抽出すること
* ゲーム内で一貫した計画を立てること

例えば、特定のアイテムをどこに置いたか忘れてしまったり、迷路のような場所で同じ場所をぐるぐる回ってしまったりするケースが見られました。これは、LLMが長期的な文脈を維持し、それを活用することが難しいことを示しています。

LLMの得意分野

TextQuestsの結果から、LLMは以下の分野で強みを発揮することがわかります。

* 自然言語の理解と生成：ゲーム内のテキストを解析し、適切なアクションを生成する。
* ゲームのルールと前提の学習：与えられた情報からゲームの仕組みを理解する。
* 情報の検索：過去の行動や観察から必要な情報を思い出す。

LLMの課題

一方で、LLMは以下の課題に直面しています。

* 長期的な文脈の理解：ゲーム全体を通して一貫した戦略を維持する。
* 複雑な問題の解決：複数のステップを必要とするパズルを解く。
* 一貫した計画の立案：長期的な目標を達成するための計画を立て、実行する。

これらの課題は、LLMがより高度な推論能力や計画能力を獲得する必要があることを示唆しています。

TextQuestsは、LLMの性能を評価するための貴重なベンチマークです。今後は、TextQuestsの結果を分析することで、LLMの課題を克服し、より高度なAIエージェントを開発することが期待されます。

LLMの限界と未来への展望：TextQuestsからの洞察

TextQuestsの結果は、大規模言語モデル（LLM）が万能ではないことを示唆しています。しかし、その限界を知ることは、今後の研究開発の方向性を定める上で非常に重要です。ここでは、TextQuestsの結果から見えてきたLLMの課題を深掘りし、その未来への展望を探ります。

長文脈理解の課題

TextQuestsは、LLMに100Kトークンを超える長文脈での推論を要求します。しかし、現状のLLMは、文脈が長くなるにつれて以前のインタラクションを忘れたり、誤った情報を生成したりする傾向があります。これは、ゲームの進行に必要な情報を正確に把握し、過去の行動との整合性を保つ上で大きな障害となります。

この課題を克服するためには、LLMが文脈全体を効率的に処理し、重要な情報を選択的に記憶する能力を高める必要があります。例えば、注意機構（Attention Mechanism）の改良や、外部メモリの活用などが考えられます。

推論能力の課題

TextQuestsでは、複雑なパズルを解き、複数のステップからなる計画を立てる必要があり、高い推論能力が求められます。しかし、多くのLLMは、タスクを完了するために必要な手順を理解したり、以前の行動の結果を考慮したりすることに苦労しています。

この課題に対しては、LLMが論理的な推論や因果関係の理解を深めるための学習方法を開発する必要があります。また、知識グラフなどの外部知識源を活用することで、より複雑な推論を可能にすることも有効です。

倫理的行動の課題

TextQuestsはゲームという仮想環境ですが、LLMの行動には倫理的な側面も存在します。例えば、ゲーム内のキャラクターに対する不当な暴力や、欺瞞的な行為は避けるべきです。しかし、LLMは、倫理的な判断を下すことが難しく、意図せずに不適切な行動をとってしまう可能性があります。

この課題を解決するためには、LLMに倫理的な原則を学習させ、行動の倫理的な影響を評価する能力を身につけさせる必要があります。また、人間の価値観を反映したトレーニングデータを使用することも重要です。

今後のLLM研究開発の方向性

TextQuestsの結果を踏まえ、今後のLLM研究開発は以下の方向に進むことが期待されます。

長文脈理解能力の向上：より長い文脈を効率的に処理し、必要な情報を正確に把握できるLLMの開発。
推論能力の向上：論理的な推論や因果関係の理解を深め、複雑な問題を解決できるLLMの開発。
倫理的な行動の保証：倫理的な原則を学習し、人間の価値観を尊重した行動をとれるLLMの開発。

TextQuestsは、LLMの限界を明らかにするだけでなく、今後の研究開発の方向性を示す貴重なベンチマークです。

専門家の見解

TextQuestsの結果について、AI研究者の間では以下のような意見が出ています。

「TextQuestsは、LLMの長期的な推論能力を評価するための非常に優れたベンチマークだ。従来のベンチマークでは見えなかったLLMの弱点が明らかになった。」
「LLMは、まだ複雑なゲームを完全に理解し、戦略的にプレイするには至っていない。しかし、TextQuestsの結果は、今後の研究開発の方向性を示唆しており、非常に価値がある。」
「TextQuestsは、LLMの倫理的な行動を評価するための重要な一歩だ。今後は、より複雑な倫理的判断を要求するベンチマークも必要になるだろう。」

TextQuestsは、LLMの未来を拓くための羅針盤となるでしょう。

TextQuestsの独自性：従来のベンチマークとの違い

TextQuestsは、大規模言語モデル（LLM）の性能を評価するための新しいベンチマークであり、従来のAIエージェント評価ベンチマークとは異なる独自性を持っています。従来のベンチマークと比較しながら、TextQuestsの独自性を解説します。

ツール利用能力の比較

従来のAIエージェント評価ベンチマークの多くは、LLMがWeb検索やAPI呼び出しなどの外部ツールをどれだけ効果的に利用できるかを評価することに重点を置いていました。これに対し、TextQuestsは、LLMが外部ツールに頼らず、自らの内在的な推論能力でどれだけ複雑な問題を解決できるかを評価します。ツール利用能力は重要ですが、TextQuestsは、LLMが自力でどこまでできるかを見極めることを重視しているのです。

コーディング能力の比較

また、従来のベンチマークには、LLMがコードを生成したり、理解したりする能力を評価するものも多く存在しました。TextQuestsは、コーディング能力を直接評価するものではありませんが、LLMがゲームのルールや前提条件を理解し、それに基づいて実行可能なコマンドを生成する能力を評価するという点で、間接的にコーディング能力と関連しています。ゲームクリアに必要な行動を、適切な自然言語で表現できるかが試されるのです。

対話能力の比較

さらに、従来のベンチマークの中には、LLMが人間と自然な対話を行う能力を評価することに重点を置いているものもあります。TextQuestsは、対話能力を直接評価するわけではありませんが、LLMがゲームの状態を正確に把握し、その状況に応じて適切な行動を判断し、実行する能力を評価します。これは、人間との対話における状況理解能力と意思決定能力に通じる部分があると言えるでしょう。

TextQuestsの独自性：長期的な文脈理解と倫理的行動

TextQuestsが従来のベンチマークと最も異なる点は、LLMの長期的な文脈理解能力、複雑な推論能力、そして倫理的な行動を総合的に評価することに重点を置いている点です。従来のベンチマークでは、特定のスキルに焦点を当てることが多かったのに対し、TextQuestsは、より現実世界に近い、複雑な状況下でのLLMの能力を評価しようとしています。

TextQuestsは、LLMが直面する状況が変化するにつれて、その行動を適応させる能力を評価します。これは、現実世界の多くのタスクにおいて重要な能力です。

特に、外部ツールへの依存を排除することで、TextQuestsはLLMが持つ内在的な推論能力を浮き彫りにします。これは、LLMが自律的に行動し、複雑な問題を解決するために不可欠な能力です。また、TextQuestsは、ゲームという設定を通じて、LLMの倫理的な行動も評価します。ゲーム内での行動が、道徳的な観点から見て適切かどうかを判断することで、LLMの倫理的な意思決定能力を測るのです。

まとめ：TextQuestsが示すAIエージェントの未来

TextQuestsは、従来のAIエージェント評価ベンチマークとは一線を画し、LLMの総合的な問題解決能力、長期的な文脈理解能力、そして倫理的な行動を評価するための新しい基準を提供します。TextQuestsの結果は、今後のLLM研究開発の方向性を示唆し、より賢く、より自律的で、より倫理的なAIエージェントの実現に貢献することが期待されます。

TextQuestsは、単なるゲームのクリアを目指すだけでなく、AIエージェントが現実世界の複雑な課題にどのように立ち向かうことができるのか、その可能性を探るための重要な一歩となるでしょう。