DeepDiveで深層検索を極める！知識グラフとマルチターンRLの融合

紹介論文
1. この論文を一言でまとめると
DeepDiveとは？深層検索エージェントの新たな地平
知識グラフからのデータ合成：難易度と多様性を両立
マルチターン強化学習：エージェントの推論能力を飛躍的に向上
実験結果：DeepDiveの圧倒的な性能と汎用性
DeepDiveの応用と今後の展望：深層検索の未来を切り拓く
1. DeepDiveの潜在的な応用分野
2. 今後の研究の方向性

紹介論文

今回紹介する論文はDeepDive: Advancing Deep Search Agents with Knowledge Graphs and
Multi-Turn RLという論文です。

https://arxiv.org/pdf/2509.10446v1.pdf

この論文を一言でまとめると

DeepDiveは、知識グラフとマルチターン強化学習を組み合わせた深層検索エージェントです。この記事では、DeepDiveの革新的なデータ合成手法、RLによる性能向上、そして実際の応用例を解説します。読者は、DeepDiveの仕組みを理解し、自身の研究や開発に活かすための具体的な知識とインスピレーションを得られるでしょう。

DeepDiveとは？深層検索エージェントの新たな地平

DeepDiveは、まるで深海を探査する潜水艇のように、これまで到達できなかった情報領域へと進むための深層検索エージェントです。従来の検索エンジンやAIエージェントとは一線を画し、知識グラフとマルチターン強化学習(RL)という2つの強力なエンジンを搭載することで、複雑な質問に対し、長期間にわたる推論を可能にしました。

深層検索エージェントとは？

従来の検索エージェントは、キーワードに合致する情報を素早く見つけ出すことに特化していました。しかし、現実世界の問題はもっと複雑で、複数の情報源を組み合わせ、推論を重ねて初めて答えにたどり着けるものが多く存在します。例えば、「20世紀に活躍した日本人科学者のうち、ノーベル賞を受賞していない人物で、21世紀になってからその業績が再評価されたのは誰？」といった質問に答えるには、複数のWebページを閲覧し、情報を整理・分析する必要があります。

従来の検索エンジンの限界
従来の検索エンジンは、このような複雑な質問に対して、十分な情報を提供できませんでした。なぜなら、キーワード検索だけでは、情報の関連性や文脈を理解することが難しく、人間のような推論能力が欠けていたからです。

DeepDiveは、このような課題を解決するために開発されました。DeepDiveは、以下の点で従来の検索エージェントとは異なります。

* 長期間の推論能力: 複数のWebページを順番に閲覧し、情報を関連付けながら推論を進めることができます。
* 知識グラフの活用: 知識グラフから得られた情報をもとに、質問の意図を理解し、より適切な情報を検索することができます。
* マルチターン強化学習: 試行錯誤を繰り返しながら、より効率的な検索戦略を学習することができます。

知識グラフを活用したデータ合成

DeepDiveの強みの一つは、知識グラフを活用したデータ合成です。知識グラフとは、エンティティ（人、場所、組織など）とその関係性を構造的に表現したデータベースのことです。DeepDiveは、この知識グラフから自動的に質問と回答のペアを生成することで、高品質な訓練データを大量に作成しています。

知識グラフの例
例えば、「東京」というエンティティは、「日本の首都である」「人口は約1400万人である」「主要な駅は東京駅、新宿駅、渋谷駅などである」といった属性情報を持っています。知識グラフは、このようなエンティティと属性情報を組み合わせることで、複雑な質問に対する推論を可能にします。

DeepDiveは、知識グラフから質問を生成する際に、意図的にエンティティの曖昧化を行います。例えば、「19世紀に活躍した科学者」というエンティティを「19世紀に活躍した、ある国の科学者」のように曖昧にすることで、検索の難易度を高めています。さらに、DeepDiveはLLM（大規模言語モデル）を活用して、質問の表現を洗練させ、より自然で多様な質問を生成しています。

長期間の推論能力がもたらすメリット

DeepDiveの長期間の推論能力は、従来の検索エージェントでは不可能だった、以下のようなメリットをもたらします。

* 複雑な質問への対応: 複数の情報源を組み合わせ、推論を重ねて初めて答えにたどり着ける質問に対応できます。
* 発見困難な情報の特定: 表面的な情報だけでなく、隠れた情報や関連情報を見つけ出すことができます。
* 高度な意思決定支援: 複数の選択肢を比較検討し、根拠に基づいた意思決定を支援します。

DeepDiveは、まさに深層検索の新たな地平を切り拓く、革新的な技術です。次のセクションでは、DeepDiveのデータ合成手法について、さらに詳しく解説します。

知識グラフからのデータ合成：難易度と多様性を両立

DeepDiveの強みの一つは、そのデータ合成手法にあります。深層検索エージェントを効果的に学習させるためには、従来のデータセットでは不十分です。なぜなら、現実世界の複雑な質問に対応するには、高度な推論能力と、曖昧な情報の中から必要なものを見つけ出す能力が求められるからです。そこでDeepDiveは、知識グラフを活用し、エンティティの曖昧化、LLMによる質問の洗練という3つのステップを経て、高品質で多様な訓練データを生成します。このセクションでは、DeepDiveのデータ合成手法を詳細に解説し、その背後にある考え方と具体的なプロセスを明らかにします。

知識グラフの活用：構造化された情報源

DeepDiveがデータ合成の基盤として採用しているのが、知識グラフ（Knowledge Graph, KG）です。知識グラフとは、エンティティ（例えば、人、場所、概念など）と、それらの間の関係性を構造的に表現したものです。具体的には、ノードがエンティティを、エッジが関係性を表すグラフ構造を持ちます。この構造化された性質が、DeepDiveにとって非常に重要な意味を持ちます。

知識グラフを活用するメリットは大きく分けて3つあります。

検証可能性: KGは事実に基づいたトリプル（エンティティ-関係-エンティティ）で構成されており、その正確性を検証することができます。これにより、モデルが生成したデータに比べて、信頼性の高いデータセットを構築できます。
多段階構造: KG上でのランダムウォークによって、意図的に推論の深さを制御できます。これにより、モデルが単純な知識検索ではなく、複数ステップの推論を必要とする複雑な質問に対応できるようにします。
制御可能性: 各エンティティノードは、日付、名前、場所など、複数の属性を持ちます。これらの属性を選択的に隠したり、曖昧にしたりすることで、質問の難易度を調整できます。

エンティティの曖昧化：難易度を高める秘訣

DeepDiveのデータ合成における重要な要素が、エンティティの曖昧化です。これは、質問に含まれるエンティティに関する情報を意図的に不明瞭にすることで、モデルが安易なショートカットを見つけ出すのを防ぎ、より深い推論を促すためのテクニックです。例えば、人名の一部を伏せ字にしたり、日付を特定の範囲にぼかしたり、場所をより一般的な表現に置き換えたりします。このような曖昧化処理によって、モデルは関連情報を検索し、推論を重ねる必要が生じます。

エンティティの曖昧化は、以下の2つの観点から質問の難易度を向上させます。

情報検索の必要性: 曖昧化されたエンティティに関する情報を特定するために、モデルは外部の情報源（Web検索など）を利用する必要があります。
推論能力の向上: 曖昧化された情報から正解を導き出すためには、モデルはより高度な推論能力を発揮する必要があります。

LLMによる質問の洗練：自然で難しい質問を生成

知識グラフとエンティティの曖昧化によって、ある程度の難易度を持つデータセットを生成できますが、それだけでは、現実世界の複雑な質問を十分に再現できません。そこでDeepDiveは、大規模言語モデル（LLM）を活用して、質問をさらに洗練します。具体的には、以下の2つのステップで質問の質を高めます。

パスの品質向上: LLMは、KG上でのランダムウォークで次に訪れるべきノードを選択する際に、文脈との関連性を考慮します。これにより、生成される推論パスがより自然で論理的なものになります。
難易度フィルタリング: フロンティアモデル（例：GPT-4o）に質問を解かせ、正解できた質問は簡単すぎると判断して破棄します。フロンティアモデルが解けなかった質問のみをデータセットに採用することで、難易度の高い質問を厳選します。

このプロセスを通じて、DeepDiveは、知識グラフの構造化された情報と、LLMの自然言語生成能力を組み合わせ、高品質で多様な深層検索QAデータセットを生成します。このデータセットこそが、DeepDiveエージェントが高い性能を発揮するための鍵となるのです。

データセット構築の詳細

DeepDiveで使用されるデータセットは、KILTとAMinerという2つの公開知識グラフから構築されています。具体的な構築手順は以下の通りです。

ランダムウォークで長鎖パスを生成（パスの長さk ∈ [5,9]、出次数d = 3、最小出次数dmin = 4、最大出次数dmax = 8）。
Gemini-2.5-Proを利用してエンティティを曖昧にし、QAペアを合成。
3,250の深層検索QAペアを生成し、教師ありファインチューニング（SFT）用に1,016サンプル、強化学習（RL）用に2,234サンプルをランダムに分割。

これらのステップを経て構築されたデータセットは、DeepDiveエージェントの学習に最適な形に調整されています。このデータセットを活用することで、DeepDiveは、従来の検索エージェントを凌駕する、高度な深層検索能力を獲得するのです。

マルチターン強化学習：エージェントの推論能力を飛躍的に向上

DeepDiveの真髄は、マルチターン強化学習（RL）を導入した点にあります。従来の検索エージェントは、一度の検索で結果を出すことを前提としていましたが、DeepDiveは、人間がWebを探索するように、試行錯誤を繰り返しながら徐々に知識を深めていくアプローチを採用しています。

マルチターン強化学習とは？

マルチターンRLは、エージェントが環境と相互作用しながら、報酬を最大化するように学習する手法です。DeepDiveの場合、環境はWebであり、エージェントは検索クエリの発行、Webページのクリック、情報の抽出といった行動を通じてWebを探索します。そして、最終的な回答の正しさに基づいて報酬を得ます。

このプロセスを繰り返すことで、エージェントはより効果的な検索戦略を学習し、複雑な質問にも対応できるようになります。

DeepDiveにおけるマルチターンRLの役割

* **反復的な推論とツール呼び出しの最適化**
DeepDiveでは、マルチターンRLにより、エージェントは一度の検索で終わらず、複数回の試行錯誤を通じて推論を深めることができます。Webの情報を探索するための検索クエリ、Webページのクリック、情報抽出といったツールを連続的に使用することで、より複雑な質問に答えることが可能になります。

* **長期的な依存関係の学習**
マルチターンRLは、エージェントが長期的な依存関係を学習するのに役立ちます。例えば、あるWebページで得られた情報が、後の検索クエリの改善に役立つといったケースです。このような長期的な依存関係を捉えることで、エージェントはより複雑な推論を行うことができます。

* **探索と知識獲得のバランス**
DeepDiveは、RLを通じて、Webの探索と知識獲得のバランスを学習します。初期段階では、エージェントは様々なWebページを探索し、知識を獲得します。その後、獲得した知識に基づいて、より効率的な検索戦略を学習します。

エージェントが試行錯誤を繰り返しながら検索戦略を獲得する過程

DeepDiveのエージェントは、以下のようなステップで検索戦略を獲得していきます。

1. **初期段階：** ランダムな検索クエリを発行し、様々なWebページを探索します。この段階では、知識の獲得が主な目的となります。
2. **試行錯誤段階：** 獲得した知識に基づいて、より具体的な検索クエリを発行します。この段階では、正解にたどり着くための戦略を模索します。
3. **学習段階：** 試行錯誤の結果に基づいて、報酬を最大化するような検索戦略を学習します。この段階では、過去の成功例や失敗例からパターンを抽出し、今後の行動に活かします。

例えば、ある質問に対して、最初のエージェントは「〇〇大学」という検索クエリを発行したとします。しかし、得られた情報から、より詳細な情報が必要だと判断し、次のクエリで「〇〇大学　偏差値」と検索することを学習します。このように、試行錯誤を通じて、より効果的な検索戦略を獲得していきます。

厳密な報酬メカニズム

DeepDiveでは、効果的な学習を促すために、厳密な報酬メカニズムを採用しています。エージェントは、以下の2つの条件を満たした場合にのみ、正の報酬を得ることができます。

1. **各ステップの形式が正しいこと：** エージェントが生成する検索クエリやWebページのクリックが、文法的に正しく、意味のあるものである必要があります。
2. **最終的な回答が正解と一致すること：** エージェントが最終的に生成する回答が、質問に対する正解と完全に一致する必要があります。

この厳密な報酬メカニズムにより、エージェントは無意味な行動を避け、正解にたどり着くために必要な行動のみを学習することができます。

マルチターンRLによる性能向上

DeepDiveの実験結果から、マルチターンRLがエージェントの性能を飛躍的に向上させることが示されています。特に、以下の点が明らかになりました。

* **BrowseCompベンチマークでの高い精度：** RLを適用することで、BrowseCompベンチマークでの精度が大幅に向上しました。
* **ツール呼び出し数の増加：** RLを適用することで、エージェントが発行する検索クエリの数が増加しました。これは、より深くWebを探索するようになったことを示しています。
* **長期的な依存関係の学習：** RLを適用することで、エージェントが長期的な依存関係を学習し、より複雑な推論を行うことができるようになりました。

これらの結果から、マルチターンRLは、深層検索エージェントの性能を向上させるための非常に有効な手法であることがわかります。

実験結果：DeepDiveの圧倒的な性能と汎用性

DeepDiveの真価は、その圧倒的な性能と、様々なタスクに対応できる汎用性にあります。ここでは、DeepDiveの実験結果を詳細に分析し、その実力を明らかにしていきます。

BrowseCompベンチマークでの圧倒的な精度

DeepDive-32Bは、深層検索エージェントの性能を測る上で重要な指標となるBrowseCompベンチマークにおいて、14.8%という驚異的な精度を達成しました。これは、既存のオープンソースシステムであるWebSailor、Search-01、DeepSeek-R1-Browseなどを大きく上回り、オープンソースモデルとして最高水準の性能を示しています。

この結果が示すのは、DeepDiveが、複雑で発見が困難な情報をインターネットから正確に探し出す能力に長けているということです。従来の検索エンジンでは対応が難しかった、多段階の推論を必要とする質問に対しても、DeepDiveは高い精度で回答することができます。

さらに重要なのは、強化学習（RL）がDeepDiveの性能向上に大きく貢献している点です。強化学習を行っていないDeepDive-32B（SFTのみ）でも9.5%の精度を達成していますが、RLによってその性能は大幅に向上しています。このことから、RLがDeepDiveの推論能力と検索能力を効果的に結びつけ、より複雑な問題解決を可能にしていることがわかります。

ツール呼び出しのスケーリング：より深く、より正確な検索へ

DeepDiveの性能は、ツール呼び出しのスケーリングによってさらに向上します。ツール呼び出しとは、DeepDiveが検索エンジンなどの外部ツールを呼び出す回数のことで、ツール呼び出しの回数を増やすほど、より深く、より正確な検索が可能になります。

実験結果によると、ツール呼び出しの最大数を増やすにつれて、モデルの精度が着実に向上することが確認されています。特に、ツール呼び出しの回数が32回を超えると、強化学習を行ったDeepDive-32Bモデルが、強化学習を行っていないDeepDive-32B（SFTのみ）モデルを大きく上回る性能を発揮します。このことから、ツール呼び出しのスケーリングは、DeepDiveの潜在能力を最大限に引き出すために不可欠であることがわかります。

並列サンプリング：効率的な探索と最適な回答の選択

並列サンプリングは、DeepDiveの性能をさらに向上させるための重要な戦略です。並列サンプリングでは、各質問に対して複数の独立した推論軌跡を生成し、それぞれの軌跡から得られた回答を比較検討することで、より正確な回答を選択します。

実験では、8つのサンプリングされた軌跡の中で、最も少ないツール呼び出しを必要とする回答を選択するという戦略が、非常に効果的であることが示されました。多数決投票と比較して、この戦略はBrowseComp-266のスコアを大幅に向上させ、DeepDiveの精度を飛躍的に高めることに成功しています。この結果は、DeepDiveが、効率的な探索と最適な回答の選択を通じて、その性能を最大限に発揮できることを示しています。

他のベンチマークでの優れた性能と汎用性

DeepDiveは、BrowseCompだけでなく、BrowseComp-ZH、SEAL-0、XBench-DeepSearchといった他のベンチマークでも優れた性能を発揮しています。これらのベンチマークは、それぞれ異なる特性を持つ深層検索タスクを評価するために設計されており、DeepDiveの汎用性の高さを示しています。

特に、BrowseComp-ZHでの高い精度は、DeepDiveが多言語環境でもその能力を発揮できることを示唆しています。また、SEAL-0やXBench-DeepSearchでの優れた性能は、DeepDiveが複雑な推論と情報収集を必要とする様々なタスクに対応できることを示しています。

結論：DeepDiveの圧倒的な性能と汎用性

DeepDiveは、その革新的なアーキテクチャと効果的な学習戦略により、深層検索エージェントの新たな地平を切り拓きました。BrowseCompベンチマークでの圧倒的な精度、ツール呼び出しのスケーリング、並列サンプリングの効果、そして他のベンチマークでの優れた性能は、DeepDiveが単なる検索エンジンではなく、複雑な問題を解決するための強力なツールであることを証明しています。

DeepDiveの応用と今後の展望：深層検索の未来を切り拓く

DeepDiveがもたらす深層検索の進化は、単なる情報検索の効率化に留まりません。その応用範囲は広く、私たちの社会やビジネスに大きな変革をもたらす可能性を秘めています。ここでは、DeepDiveの潜在的な応用分野と今後の研究の方向性について考察し、深層検索の未来を展望します。

DeepDiveの潜在的な応用分野

DeepDiveの技術は、様々な分野で応用できる可能性を秘めています。

* **情報収集：** 複雑な情報を効率的に収集し、分析する能力は、研究者やジャーナリストにとって強力な武器となります。論文調査、市場調査、競合分析など、様々な情報収集タスクを効率化し、より深い洞察を得ることを可能にします。
* **意思決定：** 複数の情報源から得られた情報を統合し、客観的な根拠に基づいた意思決定を支援します。投資判断、リスク評価、政策立案など、様々な意思決定プロセスにおいて、より正確で信頼性の高い判断を可能にします。
* **問題解決：** 複雑な問題の原因を特定し、解決策を見つけ出す能力は、企業や政府機関にとって不可欠です。 DeepDiveは、医療診断、犯罪捜査、環境問題解決など、様々な問題解決タスクにおいて、新たなアプローチを提供します。

例えば、医療分野では、DeepDiveを用いて患者の症状、検査結果、過去の病歴などの情報を統合的に分析し、より正確な診断や最適な治療法の提案に役立てることができます。

今後の研究の方向性

DeepDiveはまだ発展途上の技術であり、今後の研究によってさらなる進化が期待されます。

* **強化学習段階での最適なトレーニングステップの決定：** DeepDiveの性能を最大限に引き出すためには、強化学習のトレーニングステップ数を最適化する必要があります。過剰なトレーニングは過学習を引き起こし、汎化性能を損なう可能性があります。適切なトレーニングステップ数を決定するための研究が重要です。
* **強化学習段階のためのより適切な報酬メカニズムの設計：** 現在のDeepDiveでは、厳密なバイナリ報酬関数を使用していますが、より柔軟で効果的な報酬メカニズムを設計することで、エージェントの学習効率を向上させることができます。例えば、部分的な正解や関連性の高い情報に対する報酬を与えることで、より複雑な検索戦略の学習を促進することが考えられます。

今後の研究では、DeepDiveの倫理的な側面にも配慮する必要があります。 DeepDiveが収集・分析する情報は、個人情報や機密情報を含む可能性があります。情報の取り扱いに関する厳格なルールを設け、プライバシー保護と情報セキュリティを確保することが不可欠です。

DeepDiveは、深層検索の未来を切り拓く可能性を秘めた革新的な技術です。今後の研究開発によって、DeepDiveが私たちの社会やビジネスにどのような変革をもたらすのか、注目していきましょう。