Tongyi DeepResearch徹底解説！AI研究の新潮流

紹介論文
1. この論文を一言でまとめると
はじめに：AI研究の自動化という革命
1. AI研究の現状と課題：手作業からの脱却
2. Tongyi DeepResearch：AI研究の民主化
Tongyi DeepResearch：設計思想と主要コンポーネント
Agentic Mid-training：エージェントとしての基礎を築く
Agentic Post-training：深層研究能力の獲得
実験結果：驚異的な性能と今後の展望
まとめ：オープンソースAI研究の未来

紹介論文

今回紹介する論文はTongyi DeepResearch Technical Reportという論文です。

https://arxiv.org/pdf/2510.24701v1.pdf

この論文を一言でまとめると

Tongyi DeepResearchの技術レポートを徹底解説。AI研究の自動化、データ合成、環境構築、そして性能評価まで、AI研究の最前線をわかりやすく解説します。オープンソースAI研究者への第一歩を踏み出しましょう。

はじめに：AI研究の自動化という革命

AI研究のフロンティアは、常に進化を続けています。かつては人間が膨大な時間を費やしていたタスクも、AIの進化によって自動化の波が押し寄せています。しかし、その道のりは決して平坦ではありませんでした。

AI研究の現状と課題：手作業からの脱却

現在のAI研究は、AGI（汎用人工知能）の実現という壮大な目標に向かって進んでいます。その過程で、ディープリサーチという新しいパラダイムが注目を集めています。ディープリサーチとは、AIエージェントが複雑なタスクを自律的に実行する能力のこと。例えば、情報収集、分析、そして最終的な結論まで、一連のプロセスをAIが自ら行うのです。

ディープリサーチエージェントは、人間が何時間もかけて行う作業を、わずか数十分で完了できる可能性を秘めています。

しかし、現状では多くのディープリサーチシステムがクローズドソースであり、その研究プロセスはブラックボックス化されています。これでは、研究の透明性が損なわれ、コミュニティ全体の知識共有や発展が阻害されてしまいます。また、体系的な方法論や、誰もが利用できるオープンソースモデルの不足も、大きな課題として横たわっています。

Tongyi DeepResearch：AI研究の民主化

このような状況を打破するために登場したのが、Tongyi DeepResearchです。Tongyi DeepResearchは、AI研究のあり方を根本から変える可能性を秘めた、オープンソースのAI研究エージェントなのです。

Tongyi DeepResearchは、大規模言語モデル（LLM）に自律的な研究能力を付与し、計画、検索、推論、知識統合といった高度なタスクをAI自身が行えるようにします。これにより、AI研究者はより創造的な活動に集中できるようになり、研究開発のスピードは飛躍的に向上します。

Tongyi DeepResearchの登場は、AI研究におけるボトルネックを解消し、研究プロセスを加速させるだけでなく、AI研究の民主化を促進する可能性を秘めています。

特に、長期的な推論や複雑な情報探索タスクにおいて、Tongyi DeepResearchはその真価を発揮します。次世代のAI研究を牽引する存在として、その活躍から目が離せません。

Tongyi DeepResearch：設計思想と主要コンポーネント

Tongyi DeepResearchは、AI研究の自動化を推し進めるための革新的なプラットフォームです。その核心となるのは、以下の3つの設計思想と主要コンポーネントが有機的に連携し、高度なAI研究を可能にする点です。

* Agent Training Pipeline（エージェント訓練パイプライン）
* Synthetic Data Centric Scaling（合成データ中心のスケーリング）
* Learning Through Environmental Interaction（環境インタラクションを通じた学習）

これらの要素がどのように組み合わさり、AI研究の新たな可能性を切り開くのか、詳しく解説します。

Agent Training Pipeline：自律的な研究者を育成する

従来のLLM（大規模言語モデル）の訓練と比較して、AIエージェントの訓練はより複雑で困難です。Tongyi DeepResearchでは、Agentic Mid-trainingとAgentic Post-trainingという2つの段階を設けることで、この課題を克服しています。

Agentic Mid-trainingは、モデルに大規模で高品質なエージェントデータを与えることで、自律的な行動を促すための基礎を築きます。一方、Agentic Post-trainingでは、強化学習を通じてモデルの能力をさらに向上させ、複雑なタスクを解決するための深層研究能力を獲得させます。

Agentic Mid-trainingとAgentic Post-trainingを組み合わせることで、モデルは段階的に、基本的なインタラクションスキルから高度な自律的研究行動へと進化していきます。

Synthetic Data Centric Scaling：データこそがAI研究の燃料

高品質なデータは、AIモデルの訓練において不可欠な要素です。しかし、ディープリサーチのような複雑なタスクにおいては、適切なデータを収集することが非常に困難です。Tongyi DeepResearchは、この課題を解決するために、完全に自動化されたデータ合成パイプラインを設計しました。

このパイプラインは、人間のアノテーションに頼ることなく、多様で高品質なエージェント軌跡を生成します。合成データは、検証が容易であり、大規模なデータセットを構築できるため、エージェントのトレーニングに最適な選択肢となります。

合成データを使用することで、Tongyi DeepResearchは、自然言語処理の分野におけるデータ不足という長年の問題を克服し、AI研究の可能性を大きく広げています。

Learning Through Environmental Interaction：環境との相互作用から学ぶ

Tongyi DeepResearchは、環境を単なる外部の現実として捉えるのではなく、トレーニングプロセスと深く連携するシステムとして積極的に設計します。この設計思想に基づき、Tongyi DeepResearchでは、以下の3つの形式で環境をモデル化しています。

* Prior World Environment：タスク要素、ツール、状態定義を提供し、エージェントが環境からの応答を受けずにインタラクション軌跡を自律的に探索できるようにします。
* Simulated Environment：現実世界のインタラクションの制御された、再現可能なレプリカをローカルで構築します。これにより、高速なイテレーションと因果関係の分析が可能になります。
* Real-world Environment：最も信頼性の高いデータ分布とフィードバックシグナルを提供し、エージェント能力の究極的なテストの場として機能します。

これらの環境を組み合わせることで、Tongyi DeepResearchは、安定性、忠実度、コストのバランスを取りながら、エージェントが効率的に学習し、高度な能力を獲得できるような環境を提供します。

環境インタラクションを通じて学習する能力は、AIエージェントが現実世界で複雑な問題を解決するために不可欠です。Tongyi DeepResearchは、この点を重視し、革新的な環境設計を通じて、AIエージェントの学習効率と能力を最大化しています。

これらの設計思想と主要コンポーネントが連携することで、Tongyi DeepResearchは、AI研究の可能性を大きく広げ、新たな時代を切り開いています。次のセクションでは、Agentic Mid-trainingについてさらに詳しく掘り下げていきます。

Agentic Mid-training：エージェントとしての基礎を築く

AI研究の自動化を推し進める上で、Tongyi DeepResearchが採用するAgentic Mid-trainingは、非常に重要な役割を果たします。このセクションでは、その重要性と具体的な実装方法について詳しく解説します。

Agentic Mid-trainingとは？

従来のAIモデルは、大量のテキストデータで事前学習を行い、その後、特定のタスクに合わせて微調整を行います。しかし、自律的な研究活動を行うエージェントを育成する場合、これだけでは不十分です。なぜなら、一般的な基盤モデルには、エージェントとしての行動様式に関する知識（エージェント的な帰納バイアス）が不足しているからです。

Agentic Mid-trainingは、事前学習とAgentic Post-trainingの間に位置し、両者を繋ぐ重要な橋渡しの役割を果たします。

Agentic Mid-trainingは、大規模で高品質なエージェントデータを用いてモデルを学習させることで、エージェントとしての潜在能力を引き出します。これにより、モデルは、指示に従うだけでなく、自ら考え、行動し、問題を解決する能力を身につけることができるようになります。

Agentic CPT：継続的な事前学習

Tongyi DeepResearchでは、Agentic Continual Pre-training（Agentic CPT）という手法を用いて、Agentic Mid-trainingを実現しています。Agentic CPTは、2段階のプロセスで構成されており、それぞれ異なる役割を担っています。

初期段階（32Kコンテキスト長）：モデルに基本的なエージェントとしての行動様式を学習させます。
拡張段階（128Kコンテキスト長）：長文脈（64K-128K）のエージェント行動データを用いて、長期的な推論と行動の能力を強化します。

コンテキスト長とは、モデルが一度に処理できるテキストの長さを指します。コンテキスト長が長いほど、モデルはより多くの情報を考慮して、より複雑なタスクをこなすことができます。

Agentic CPTでは、一般的な事前学習データも少量組み込むことで、モデルがエージェントとしての専門知識を獲得しつつ、汎用的な能力も維持できるようにしています。

大規模なエージェント行動データ合成

Agentic CPTを成功させるためには、大量のエージェント行動データが必要です。しかし、現実世界から高品質なエージェント行動データを収集するのは非常に困難です。そこで、Tongyi DeepResearchでは、データ合成パイプラインを構築し、エージェントのワークフロー全体にわたってデータを生成しています。

データ合成パイプラインは、質問合成、計画行動、推論行動、意思決定行動といった、エージェントの主要な行動を網羅するように設計されています。

質問合成：多様な質問を生成し、エージェントの行動パターン要件を埋め込みます。
計画行動：問題を分解し、最初の一歩となる行動を予測します。
推論行動：論理的な推論を行い、異質なデータソースから知識を統合します。
意思決定行動：複数の選択肢から最適な行動を選択します。

これらの合成データは、人間の手によるアノテーションでは実現できないレベルの多様性と品質を備えています。

Agentic Mid-trainingは、AIモデルが自律的な研究活動を行うための基盤を構築する上で、不可欠なステップです。Agentic CPTと大規模なエージェント行動データ合成を組み合わせることで、Tongyi DeepResearchは、AI研究の新たな可能性を切り開いています。

Agentic Post-training：深層研究能力の獲得

前のセクションでは、Tongyi DeepResearchがエージェントとしての基礎をどのように築くかについて解説しました。このセクションでは、Agentic Post-trainingに焦点を当て、AIモデルが深層研究能力を獲得し、複雑なタスクを解決できるようになるプロセスを明らかにします。Agentic Post-trainingは、High-quality Data Synthesis、Supervised Fine-tuning、Agentic Reinforcement Learningという3つの主要なステップで構成されています。

High-quality Data Synthesis：超人的なデータで限界を超える

Agentic Post-trainingの最初のステップは、High-quality Data Synthesisです。ここでは、人間の介入なしに、複雑で不確実性の高い、超人的なレベルの質問と回答のペアを生成します。このデータセットは、AIエージェントのパフォーマンスの限界を押し広げるように設計されています。

具体的なデータ合成の手順は以下の通りです。

知識グラフの構築：ランダムウォークによって高度に相互接続された知識グラフを構築し、Web検索を利用して関連知識を獲得します。また、実世界のWebサイトからアイソモーフィックテーブルを利用し、現実的な情報構造を確保します。
サブグラフのサンプリング：構築された知識グラフからサブグラフとサブテーブルをサンプリングし、初期質問と回答を生成します。
不確実性の注入：質問の難易度を高めるために、質問内の不確実性を戦略的に増加させます。これは、エンティティ関係に対する制御可能な「アトミックオペレーション」（類似属性を持つエンティティのマージなど）を通じて実現されます。

このプロセスにより、超人的な品質のデータセットを効率的に作成できます。このデータセットは、複雑な推論や知識統合を必要とするタスクにおいて、AIエージェントの能力を最大限に引き出すために不可欠です。

Supervised Fine-tuning：強化学習への架け橋

次に、Supervised Fine-tuning (SFT)の段階に入ります。これは、強化学習の前に、ベースモデルに堅牢な初期ポリシーを装備することを目的としています。簡単に言うと、SFTは、続く強化学習の土台を作る役割を果たします。

具体的には、合成された高品質なQAデータから、優れたオープンソースモデルによって生成された思考プロセスとツールの応答を網羅するトレーニング軌跡を取得します。これらの軌跡は、その後、厳格なリジェクションサンプリングプロトコルにかけられます。これにより、多様な問題解決パターンを示す高品質な軌跡のみが保持されます。

トレーニングには、ReAct ModeとContext Management Modeという2つの異なる形式のデータを活用します。ReAct Modeでは、履歴状態を入力として、現在のステップの思考とツール呼び出しを出力します。Context Management Modeでは、前のステップの軌跡の要約、ツール呼び出し、ツール応答を入力として、現在のステップの軌跡の要約、思考、ツール呼び出しを出力します。Context Management Modeのデータは、特に状態分析と戦略的意思決定において、エージェントの能力を強化します。

Agentic Reinforcement Learning：自律的な学習と改善

Agentic Post-trainingの最後のステップは、Agentic Reinforcement Learning (RL)です。ここでは、複雑なWeb環境におけるより堅牢で信頼性の高い計画と検索に向けて、モデルの能力を向上させます。

Tongyi DeepResearchでは、モデルが完全なタスク試行（「ロールアウト」）を生成し、その最終的な回答が正解と一致する場合に報酬を受け取るというRLフレームワークを適用します。このプロセスを通じて、モデルは環境（シミュレートまたは現実世界）と継続的に相互作用し、反復ごとにそのポリシーを洗練します。改善されたポリシーを使用して、新しい、より高品質なトレーニングデータセットをキュレートします。

このフレームワークは、On-Policy Asynchronous Rollout Frameworkに基づいて構築されており、複数のエージェントインスタンスが並行して環境と相互作用し、各ロールアウトを独立して完了させることができます。これにより、RLトレーニングプロセスを大幅に高速化できます。

Agentic Post-trainingを通じて、Tongyi DeepResearchは、深層研究に必要な高度な能力を獲得します。高品質なデータ合成、教師ありファインチューニング、強化学習を組み合わせることで、モデルは複雑なタスクを解決し、自律的に学習し、改善することができます。

次のセクションでは、Tongyi DeepResearchの実験結果を詳細に分析し、既存システムとの比較、性能向上の要因、今後の展望について考察します。

実験結果：驚異的な性能と今後の展望

Tongyi DeepResearchの性能を評価するため、様々な実験が行われました。ここでは、その実験設定、主要な結果、そしてHeavy Modeという特別な設定について詳しく見ていきましょう。

Experimental Setup：評価方法の詳細

Tongyi DeepResearchは、長期的な推論能力とツール活用能力を測るため、7つの公開情報探索ベンチマークで評価されました。評価対象は、LLMベースのReActエージェント（GLM-4.5、Kimi-K2など）と、エンドツーエンドのディープリサーチエージェント（OpenAI DeepResearch、Gemini DeepResearchなど）です。

評価の際は、安定性と再現性を確保するため、推論パラメータを固定。各ベンチマークは3回独立して評価され、その平均性能（Avg@3）が主要な指標として用いられました。さらに、Pass@1（3回の試行で最高のPass@1）とPass@3の結果も分析されています。

Main Results：既存システムを凌駕する性能

実験の結果、Tongyi DeepResearchは、Humanity’s Last Exam、BrowseComp、WebWalkerQA、FRAMESなど、ほとんどのベンチマークで最高のスコアを達成しました。特に、以下の点が注目されます。

* OpenAI 03やDeepSeek-V3.1といった、他のオープンソース・クローズドソースのシステムを一貫して上回っている点。
* これらの優れた結果が、わずか33億のアクティブ化されたパラメータで達成されているという点。これは、モデルの効率性とスケーラビリティの高さを物語っています。

Tongyi DeepResearchは、オープンソースのディープリサーチエージェントとして、新たな水準を確立し、最先端のプロプライエタリシステムに匹敵する、あるいは凌駕する性能を示しました。

Heavy Mode：テスト時のスケーリングによる更なる性能向上

Tongyi DeepResearchの可能性を最大限に引き出すため、Heavy Modeという特別な設定が導入されました。これは、テスト時にリソースをより多く投入することで、性能を向上させる手法です。

Heavy Modeでは、コンテキスト管理パラダイムに基づいて構築されたResearch-Synthesisフレームワークを活用し、戦略的な並列化と合成を通じて、計算資源の制約を克服します。具体的には、複数のエージェントが並行して異なる解決策を探索し、それらの結果を統合することで、より高度な推論を実現します。

実験の結果、Heavy Modeは、Humanity’s Last Exam（38.3%）、BrowseComp-ZH（58.1%）で最高の性能を達成し、BrowseComp（58.3%）でも高い競争力を維持しました。この結果は、コンテキスト管理に基づいたHeavy Modeが、並列探索とインテリジェントな集約を通じて、テスト時の計算資源を効果的に活用できることを示しています。

今後の展望として、より大規模なモデルの開発、コンテキスト長の拡張、学習効率の向上などが挙げられています。これらの課題を克服することで、Tongyi DeepResearchは、AI研究の自動化をさらに加速させ、新たな発見を支援することが期待されます。

まとめ：オープンソースAI研究の未来

Tongyi DeepResearchは、オープンソースAI研究の新たな可能性を力強く示しました。その革新的な設計思想、データ合成技術、そして卓越した性能は、AI研究の民主化と加速に貢献するでしょう。今後は、より大規模なモデルの開発や、複雑なタスクへの対応、そして実用的な応用に向けて、さらなる発展が期待されます。

オープンソースAI研究の可能性

エージェント的知能の民主化: Tongyi DeepResearchは、AIが自律的に学習し、問題を解決する能力を、より多くの研究者や開発者が利用できるようにします。
基礎理解の深化: オープンソースモデルとして、エージェント的知能の出現とスケーリングに関する研究を促進し、AIの本質に迫る知見をもたらします。
自己改善型知能への道: Tongyi DeepResearchは、AIが自ら学習し、進化する未来に向けた重要な一歩となります。