Mind2Web 2：エージェント検索の自動評価

紹介論文
1. この論文を一言でまとめると
はじめに：エージェント検索の進化と評価の課題
Mind2Web 2：現実的なタスクとAgent-as-a-Judge
Agent-as-a-Judge：自動化された評価ロジック
エラー分析：課題と改善の方向性
まとめ：Mind2Web 2の貢献と今後の展望
1. Mind2Web 2の主な貢献
2. 今後の展望

紹介論文

今回紹介する論文はMind2Web 2: Evaluating Agentic Search with Agent-as-a-Judgeという論文です。

https://arxiv.org/pdf/2506.21506v1.pdf

この論文を一言でまとめると

Mind2Web 2は、複雑化するエージェント検索システムを評価するための新しいベンチマークです。現実的なタスクとAgent-as-a-Judgeフレームワークを通じて、次世代の検索システムの開発を促進します。

はじめに：エージェント検索の進化と評価の課題

近年のAI技術、特に大規模言語モデル（LLM）の進化は、検索のあり方に大きな変革をもたらしています。従来の検索エンジンでは、ユーザーがキーワードを入力し、表示されたURLリストから必要な情報を探し出す必要がありました。これは、多くの情報の中から必要なものを見つけ出すという、ユーザーにとって認知負荷の高い作業でした。

しかし、LLMを活用したエージェント検索という新しいパラダイムが登場し、この状況は大きく変わりつつあります。エージェント検索は、複雑なクエリを理解し、Webサイトを自律的に探索し、情報を統合して、引用付きの回答を生成します。このアプローチにより、ユーザーは低レベルのタスクから解放され、より重要な判断や意思決定に集中できるようになります。

エージェント検索とは何か？

エージェント検索とは、AIエージェントが自律的にWebを探索し、ユーザーの質問に答えるシステムのことです。従来の検索エンジンとは異なり、エージェントは複雑なタスクを分解し、最適な情報源を見つけ、統合する能力を備えています。

なぜエージェント検索の評価が重要なのか？

エージェント検索の普及に伴い、その信頼性と有効性を評価することが不可欠になっています。ユーザーは、エージェントが提供する情報が正確で偏りがないことを信頼する必要があります。自動化された評価は、エージェントが単にそれらしい回答を生成しているのか、それとも引用された情報源が実際に裏付けられているのかを判断する上で重要な役割を果たします。

既存の評価ベンチマークの限界

既存の評価ベンチマークは、多くの場合、短い検索範囲と静的な回答を前提としており、エージェント検索システムの複雑さと進化のスピードに追いついていません。より現実的で、時間とともに変化する情報を扱うことができる、新しい評価方法が求められています。

そこで、本記事では、次世代の検索システムを評価するための新しいベンチマーク、Mind2Web 2を紹介します。Mind2Web 2は、現実世界の複雑な検索タスクを捉え、エージェント検索システムの能力をより正確に評価することを目的としています。続くセクションでは、Mind2Web 2の設計、評価方法、実験結果、そして今後の展望について詳しく解説していきます。

Mind2Web 2：現実的なタスクとAgent-as-a-Judge

エージェント検索の進化には目覚ましいものがありますが、その評価は容易ではありません。複雑なタスク、時間変動性、そして何よりも現実世界との整合性が求められます。そこで登場するのがMind2Web 2、次世代エージェント検索システムを評価するための革新的なベンチマークです。

Mind2Web 2の概要：現実世界を捉えるタスク設計

Mind2Web 2は、既存のベンチマークが抱える課題を克服するために、以下のような特徴を備えています。

現実的かつ多様なタスク：ECサイトでの商品検索、旅行プランニング、情報収集など、日常生活で遭遇する可能性のあるタスクを網羅。
長期的なタスク：単発の検索では解決できない、複数ステップを要する複雑なタスクに焦点を当て、エージェントの持続的な問題解決能力を評価。
客観的かつ検証可能なタスク：明確な評価基準を設け、回答の正確性と根拠を客観的に判断可能。
時間変動性：リアルタイムの情報に基づいて回答が変化するタスクを含み、エージェントの動的な情報への対応能力を評価。

これらのタスクは、130種類にも及び、1000時間以上の人手による作業を経て構築されました。従来のベンチマークと比較して、より現実世界の複雑さを反映した評価が可能になっています。

Agent-as-a-Judge：評価を自動化する革新的なフレームワーク

Mind2Web 2の中核となるのが、Agent-as-a-Judgeという革新的な評価フレームワークです。これは、時間的変動性があり、複雑な回答を自動的かつ信頼性高く評価することを目的としています。

Agent-as-a-Judgeの主な特徴は以下の通りです。

タスク固有のjudgeエージェント：各タスクの特性に合わせてjudgeエージェントを自動生成し、回答の正確性と情報源の帰属を評価。
ツリー構造のルーブリック設計：評価基準を階層的に分解し、各評価項目を明確化。
LLM（大規模言語モデル）の活用：情報抽出、論理的判断、ツール呼び出しなど、評価プロセスにLLMを組み込み、高度な自動評価を実現。

このフレームワークにより、エージェント検索システムは、まるでAI自身が審判のように、客観的に評価されることになります。

補足情報（i）Agent-as-a-Judgeフレームワークは、生成と検証の非対称性を利用しています。つまり、回答の生成は多様であっても、評価基準は事前に明確に定義できるという点に着目しています。

現実世界のタスクを捉えるための工夫

Mind2Web 2は、現実世界の複雑な検索タスクを捉えるために、様々な工夫が凝らされています。

多様なドメインの網羅：ECサイト、旅行、ニュース、学術研究など、幅広い分野をカバー。
現実的なシナリオの設定：実際のユーザーが直面する可能性のある具体的な状況を想定。
時間的制約の導入：リアルタイムの情報に基づいて回答が変化するタスクを含めることで、エージェントの動的な情報への対応能力を評価。
意図的な曖昧さの排除：評価の客観性を高めるため、曖昧な表現や主観的な判断を排除。

これらの工夫により、Mind2Web 2は、単なる技術的なベンチマークではなく、現実世界でのエージェント検索の有用性を評価するための信頼できる指標となっています。

Agent-as-a-Judge：自動化された評価ロジック

エージェント検索システムの評価において、その複雑さと多様性から、従来の評価手法では対応しきれない課題がありました。そこで、Mind2Web 2では、時間的変化のある複雑な回答を自動的かつ信頼性高く評価するための、革新的なフレームワーク「Agent-as-a-Judge」を導入しています。このセクションでは、その評価ロジックを詳細に解説します。

ルーブリック設計：評価の軸を明確に

Agent-as-a-Judgeの中核となるのは、明確に定義されたルーブリック設計です。ルーブリックは、回答の正確性（タスクの要件をすべて満たしているか）と情報源の帰属（回答内のすべての記述が引用元によって裏付けられているか）という2つの主要な側面を評価します。この評価をより具体的に行うため、ルーブリックはツリー構造で構成され、評価は階層的な評価ノードに分解されます。

リーフノード：各リーフノードは、二項判断（正または誤）に基づいた評価基準に対応します。例えば、「指定された予算内に収まっているか」、「特定の情報源からの引用があるか」といった具体的な評価項目が該当します。
内部ノード：内部ノードは、子ノードの結果を特定の集約ロジック（例えば、ANDやOR）に従って集約し、親ノードへと伝播します。これにより、より高レベルな評価基準が段階的に評価される仕組みです。

Mind2Web 2のタスクは複雑であるため、ルーブリックツリーも高度な複雑さを持ち、平均50ノード、最大603ノードで構成されています。しかし、この詳細なルーブリック設計によって、judgeエージェントは非常に高い信頼性で評価を行うことが可能になります。

自動評価エージェントの構築：LLMとツールを連携

Agent-as-a-Judgeフレームワークでは、タスク固有のjudgeエージェントを構築します。judgeエージェントは、LLMベースの情報抽出、LLM-as-a-Judge、ツール呼び出しを組み合わせたエージェントワークフローとして機能します。

情報抽出（Extractor）：回答テキストから構造化された情報（アイテム名、価格、URLなど）を抽出します。
検証（Verifier）：抽出された情報が正しいかどうかを検証します。検証には、単純な事実確認から、引用元Webページのコンテンツとの照合まで、様々な手法が用いられます。

これらのツールを組み合わせることで、judgeエージェントは、複雑な回答を自動的かつ詳細に評価することが可能になります。例えば、商品の価格が正しいか、商品の特徴が指定された条件を満たしているか、といった点を、引用元Webページと照らし合わせて検証できます。

評価指標：部分的な完了と完全な成功

Agent-as-a-Judgeフレームワークでは、以下の主要な評価指標を用いて、エージェント検索システムの性能を評価します。

部分的な完了（Partial Completion）：タスク全体における部分的な達成度を反映する指標です。ルーブリックツリーの各ノードにおける評価結果を集約し、タスクの完了度合いを0から1の間のスコアで表します。
成功率（Success Rate）：タスクを完全に完了できた割合を示す指標です。ルーブリックツリーのルートノードのスコアが1（すべての評価基準を満たしている）であるタスクの割合を算出します。

これらの指標を用いることで、エージェント検索システムがどの程度タスクを完了できているか、また、どの程度正確な情報を提供できているかを定量的に評価することが可能になります。

## 実験結果：エージェント検索システムの性能分析

本セクションでは、Mind2Web 2ベンチマークを用いて実施された実験結果を詳細に分析します。主要なエージェント検索システムを比較し、人間によるパフォーマンスとの比較を通じて、各システムの強みと課題を明らかにします。

### 主要なエージェント検索システムの性能比較

Mind2Web 2では、9つの最先端のエージェント検索システムを評価しました。これらのシステムは、AIベースの検索エンジン、Deep Researchシステム、Webエージェントなど、多様なアプローチを採用しています。それぞれのシステムについて、Partial Completion（部分的な完了度合い）、Success Rate（タスクの成功率）、Pass@3（3回試行中の成功率）、Time（タスク完了時間）、Answer Length（回答の長さ）を測定し、比較を行いました。

Partial Completion: タスクの要件をどの程度満たせているかを示す指標です。
Success Rate: タスクを完全に達成できた割合を示す指標です。
Pass@3: 3回の試行のうち、少なくとも1回はタスクを完全に達成できた割合を示す指標です。

結果として、Deep Researchシステムが、ChatGPT SearchやPerplexity Pro Searchなどの検索拡張LLMや、Webエージェントよりも優れた性能を示すことが明らかになりました。これは、Deep Researchシステムが、高度なツールを効果的に活用し、長期にわたって検索タスクに集中できる能力を持っているためと考えられます。

### 人間によるパフォーマンスとの比較

エージェント検索システムの性能を評価する上で、人間によるパフォーマンスとの比較は不可欠です。Mind2Web 2では、人間がタスクを実行した場合の性能を測定し、エージェント検索システムの性能と比較しました。

その結果、最高のパフォーマンスを示すシステムであるOpenAI Deep Researchは、人間のパフォーマンスの50〜70%を達成できることが示されました。しかし、現在のシステムは、リアルタイムの情報とライブWebサイトとの対話を必要とする時間的変化のあるタスクに苦労していることも明らかになりました。これは、現在のシステムが、動的に変化するWebコンテンツを適切に処理する能力がまだ不十分であることを示唆しています。

人間のパフォーマンスは、認知疲労や記憶の限界により、タスクの複雑さが増すにつれて低下する可能性があります。

### Deep Researchシステムの優位性

今回の実験結果から、Deep Researchシステムは、従来の検索拡張LLMやWebエージェントよりも優れた性能を発揮することが示されました。Deep Researchシステムは、高度なツールを効果的に活用し、長期にわたって焦点を維持する能力があることが、その優位性の理由として挙げられます。

Deep Researchシステムは、テキストベースの検索APIだけでなく、Webブラウジング機能やコード実行環境などの高度なツールを統合することで、より複雑なタスクに対応できます。

### 時間的変化のあるタスクの課題

実験結果はまた、現在のシステムが、リアルタイムの情報とライブWebサイトとの対話を必要とする時間的変化のあるタスクに苦労していることを示しています。この課題を克服するためには、エージェント検索システムは、ライブWebサイトと効果的に対話する能力を統合する必要があります。

### パフォーマンス向上のための戦略

実験結果から、エージェント検索システムのパフォーマンスを向上させるためには、以下の戦略が有効であることが示唆されました。

* 計算リソースと推論の試みを増やす
* ライブWebサイトとの対話能力を統合する
* 長期的な記憶メカニズムを最適化する

### まとめ

Mind2Web 2を用いた実験結果は、エージェント検索システムの性能を評価し、改善の方向性を示す上で貴重な洞察を提供します。Deep Researchシステムの優位性、時間的変化のあるタスクの課題、そしてパフォーマンス向上のための戦略など、今回の実験結果は、次世代の検索システムの開発を促進するための重要な情報となります。

エラー分析：課題と改善の方向性

エージェント検索システムの性能を向上させるためには、どのような課題が存在するのでしょうか。Mind2Web 2 のエラー分析から見えてくる、具体的な問題点と、その改善の方向性について解説します。

エラーの種類と発生原因

Mind2Web 2 では、システムの回答を詳細に分析し、以下の主要なエラーカテゴリを特定しました。

不完全性：エージェントがタスクに必要な情報を完全には提供できない場合に発生します。例えば、要求された情報が見つからない、または、要求された項目の一部が欠落しているといったケースです。
誤った情報源：エージェントが提示した情報源（URL）が、期限切れ、捏造されたもの、または回答の内容を裏付けていない場合に発生します。これは、いわゆる「ハルシネーション」と呼ばれる現象と関連しています。
情報抽出エラー：エージェントが Web ページから情報を抽出する際に、誤った解釈や合成を行う場合に発生します。例えば、製品の価格を誤って引用する、論文の著者を誤って特定するなどが挙げられます。

エラーの具体例

これらのエラーが、具体的なタスクにおいてどのように現れるのか見てみましょう。

あるタスクで、エージェントは「〇〇大学のノーベル賞受賞者」をリストアップする必要がありました。しかし、実際には△△大学の情報を提示してしまいました。（不完全性）
別のあるタスクでは、エージェントは Amazon の購入リンクを提示する必要がありましたが、存在しないリンクを生成してしまいました。（誤った情報源）
ショッピングサイトから情報を抽出するタスクで、割引率を誤って計算してしまう。（情報抽出エラー）

改善の方向性

エラー分析の結果から、エージェント検索システムを改善するための具体的な方向性が見えてきます。

情報検索能力の向上：特に、複雑な制約条件を持つ情報を正確に検索する能力を強化する必要があります。
情報源の検証：提示する情報源が信頼できるかどうかを判断するメカニズムを組み込むことが重要です。
情報抽出と合成の精度向上：Web ページから情報を正確に抽出し、矛盾なく合成するための技術が必要です。
長期的な記憶メカニズムの導入：検索した情報を適切に管理し、長期的な推論を可能にする必要があります。

エージェント検索の信頼性向上のために

これらの課題を克服することで、エージェント検索システムは、より信頼性が高く、有益なツールへと進化するでしょう。エラー分析は、そのための重要なステップとなります。

まとめ：Mind2Web 2の貢献と今後の展望

Mind2Web 2は、長期的な情報収集タスクと時間的変化のある回答に関するエージェント検索システムの包括的な評価のために設計された新しいベンチマークです。本研究は、AIベースの検索エンジン、Deep Researchシステム、およびWebエージェントの可能性と現在の限界の両方を明らかにしました。また、柔軟で信頼性が高く、自動化されたAgent-as-a-Judgeに基づく評価フレームワークを提案しました。

Mind2Web 2の主な貢献

長期的な情報収集タスクと時間的変化のある回答を評価する初のベンチマーク
Agent-as-a-Judgeフレームワークによる柔軟で信頼性の高い自動評価
主要なエージェント検索システムの性能に関する包括的な分析

今後の展望

Mind2Web 2は、エージェント検索システムの開発を支援し、次世代検索システムの評価と改善を促進します。また、本ベンチマークは、透明性と説明責任を重視し、エージェント検索システムの開発における信頼性と責任の重要性を強調します。Mind2Web 2を活用することで、より高度なエージェント検索システムの実現に貢献できるでしょう。