大規模言語モデルの推論能力向上：DeepSeek R1とGPT-OSSの活用

紹介論文
1. この論文を一言でまとめると
はじめに：LLM推論能力の現状と課題
DeepSeek R1とGPT-OSS：推論トレース生成の比較
実験設定：数学問題データセットと評価指標
実験結果：精度と効率のトレードオフ
考察：実用的なLLM開発への応用
まとめ：今後の展望
1. 今後の展望

紹介論文

今回紹介する論文はLearning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Tracesという論文です。

https://arxiv.org/pdf/2511.19333v1.pdf

この論文を一言でまとめると

DeepSeek R1とGPT-OSSを用いて生成された推論トレースによるLLMの性能向上を検証。本記事では、数学問題解決における精度と効率のトレードオフを明らかにし、実用的なLLM開発への応用を探ります。

はじめに：LLM推論能力の現状と課題

大規模言語モデル（LLM）は、自然言語処理の分野で目覚ましい進歩を遂げていますが、高度な推論能力の実現は依然として重要な課題です。本セクションでは、LLMの推論能力向上のための技術的な背景と、本研究の目的を説明します。

LLM推論能力の現状

LLMは、大量のテキストデータを学習することで、人間のような文章生成や翻訳、質問応答などのタスクをこなせるようになりました。しかし、複雑な問題を理解し、論理的に推論する能力はまだ十分ではありません。例えば、数学の問題を解いたり、複雑な指示を理解して実行したりするタスクでは、LLMは苦戦することがあります。

LLMの推論能力が不十分な原因としては、学習データの偏りや、モデルの構造的な制約などが考えられます。

推論能力向上のための技術

LLMの推論能力を向上させるために、様々な技術が研究されています。

テスト時のスケーリング：推論時に追加の計算資源を投入することで、モデルの精度を向上させる手法です。
Chain-of-Thought Prompting：モデルに段階的な思考過程を促すプロンプトを与えることで、推論能力を引き出す手法です。
推論トレースの活用：大規模なモデルが生成した推論過程を、小規模なモデルの学習データとして利用する手法です。

本研究の目的

本研究では、DeepSeek R1とGPT-OSSという2つのLLMが生成する推論トレースに着目し、これらの推論トレースが、小規模なLLMの学習に与える影響を比較分析します。特に、数学の問題解決タスクにおける精度と効率のトレードオフに焦点を当て、実用的なLLM開発への応用可能性を探ります。

本研究は、LLMの推論能力向上に貢献するとともに、より効率的で実用的なLLMの開発を促進することを目指しています。

LLMの推論能力向上は、AI技術の発展において重要なテーマです。本研究を通じて、LLMの可能性を最大限に引き出すための新たな知見を提供できれば幸いです。

DeepSeek R1とGPT-OSS：推論トレース生成の比較

大規模言語モデル（LLM）の推論能力を向上させるためには、モデルがどのように推論を行うかを理解することが重要です。DeepSeek R1とGPT-OSSは、現在注目されているオープンソースのLLMであり、それぞれ異なる推論スタイルを持っています。本セクションでは、これらのモデルが生成する推論トレースの特性を比較し、その違いがLLMの学習に与える影響を分析します。

DeepSeek R1：詳細かつ冗長な推論

DeepSeek R1は、その詳細かつ冗長な推論スタイルで知られています。複雑な問題を解決する際に、DeepSeek R1は非常に多くのステップと詳細な説明を含む推論トレースを生成します。このスタイルは、特に複雑な数学の問題や、複数段階の思考を必要とするタスクにおいて有効です。

例：

DeepSeek R1は、ある数学の問題を解くために、問題を細かく分解し、それぞれのステップを詳細に説明します。例えば、「ある商品の価格が10%割引された後、さらに5%割引された場合、最終的な価格は何%割引されたことになるか？」という問題を解く際に、DeepSeek R1は、まず10%割引された価格を計算し、次にその価格から5%割引された価格を計算するというように、段階的に説明を行います。

DeepSeek R1の推論トレースは、平均して約15,500トークンにも及ぶことがあります。この冗長性は、モデルが問題を深く理解し、正確な答えを導き出すのに役立ちますが、計算コストの増加や推論時間の長期化といったデメリットも伴います。

GPT-OSS：簡潔かつ効率的な推論

一方、GPT-OSSは、より簡潔かつ効率的な推論スタイルを採用しています。GPT-OSSは、問題を解決するために必要なステップを最小限に抑え、冗長な説明を避ける傾向があります。このスタイルは、計算リソースが限られている場合や、迅速な推論が必要な場合に特に有効です。

例：

GPT-OSSは、DeepSeek R1と同じ数学の問題を解く際に、より直接的なアプローチを取ります。例えば、上記の問題に対して、GPT-OSSは、「10%割引と5%割引を組み合わせると、合計で約14.5%の割引になる」というように、より簡潔な説明を行います。

GPT-OSSの推論トレースは、平均して約3,500トークン程度です。この簡潔さは、計算コストの削減や推論時間の短縮に貢献しますが、複雑な問題に対する理解度が低下する可能性もあります。

推論スタイルの違いがLLM学習に与える影響

DeepSeek R1とGPT-OSSの推論スタイルの違いは、LLMの学習に大きな影響を与えます。DeepSeek R1のような詳細な推論トレースで学習されたLLMは、複雑な問題を深く理解し、正確な答えを導き出す能力が高まります。しかし、その一方で、計算コストが増加し、推論時間が長くなる傾向があります。

GPT-OSSのような簡潔な推論トレースで学習されたLLMは、計算コストを抑え、迅速な推論を行うことができます。しかし、複雑な問題に対する理解度が低下し、精度が低下する可能性もあります。

最適な推論スタイルは、LLMが解決しようとするタスクや、利用可能な計算リソースによって異なります。例えば、高精度が求められるタスクにはDeepSeek R1のような詳細な推論スタイルが適しており、迅速な応答が求められるタスクにはGPT-OSSのような簡潔な推論スタイルが適していると考えられます。

今後の研究では、これらの推論スタイルを組み合わせることで、より柔軟かつ効率的なLLMを開発できる可能性を探ることが重要です。例えば、LLMが問題の複雑さに応じて推論スタイルを自動的に選択したり、詳細な推論と簡潔な推論を組み合わせて、精度と効率のバランスを取ったりする技術が考えられます。

実験設定：数学問題データセットと評価指標

本セクションでは、LLMの推論能力を評価するために使用した数学問題データセットの詳細と、性能評価指標について解説します。

使用データセット：Nemotron-Post-Training-Dataset-v1

本研究では、NVIDIAが提供する

Nemotron-Post-Training-Dataset-v1

（Bercovich et al., 2025; Nathawani et al., 2025）から、30万件の数学対話データをサンプリングしました。このデータセットは、LLMの推論能力評価に特化しており、以下のような特徴を持ちます。

* **多様な難易度の数学問題:** 小学校レベルから大学レベルまで、幅広い難易度の数学問題が含まれています。
* **正解と詳細な推論トレース:** 各問題に対して、正解だけでなく、DeepSeek-R1によって生成された詳細な推論トレースが提供されます。これにより、LLMがどのように問題を解決したかを分析できます。
* **「数学」分割の活用:** データセット内の「数学」分割を使用しました。この分割には、様々な難易度の数学問題と、それに対するDeepSeek-R1-2508による推論トレースが含まれています。

データセットのフィルタリング

データセットの品質を確保するため、以下の手順でフィルタリングを実施しました。

1. **回答の一致:** DeepSeek-R1とGPT-OSSの両方で生成された回答が、正解と一致するサンプルのみを抽出しました。
2. **審査モデルの活用:**

Qwen3-30B-A3B-Thinking-2507

（Team, 2025）を審査モデルとして使用し、回答の一致を自動的に検証しました。

最終的に、242,000件のサンプルからなるデータセットを構築しました。各サンプルは、数学問題、正解、DeepSeek-R1とGPT-OSSそれぞれの推論トレースで構成されています。

評価指標：精度（Pass@8）と推論効率

LLMの性能を評価するために、以下の指標を使用しました。

* **精度（Pass@8）:** 与えられた問題に対して、8回試行した際に少なくとも1回正解を生成する確率です。この指標は、LLMが問題を正確に解決できる能力を評価します。
* **推論効率:** 問題解決に必要なトークン数で評価します。トークン数が少ないほど、推論効率が高いことを意味します。

トークンとは、LLMが処理するテキストの最小単位です。通常、単語や句読点などがトークンとして扱われます。

本研究では、精度と推論効率のトレードオフに焦点を当て、最適な推論スタイルについて考察します。

評価設定

全てのモデルを以下の同一条件下で評価しました。

* temperature = 0.6
* top_p = 0.95
* tokens_to_generate = 32768
* number_of_repeats= 8

実験結果：精度と効率のトレードオフ

本セクションでは、DeepSeek R1とGPT-OSSという異なる推論スタイルで学習させた大規模言語モデル（LLM）の性能を比較し、精度と推論効率のトレードオフについて詳しく考察します。どちらの推論スタイルが、より実用的なLLM開発に適しているのか、具体的な実験結果を基に議論していきます。

実験結果の概要

我々の実験では、Nemotron-Nano-12B-V2という120億パラメータのLLMを、DeepSeek R1とGPT-OSSそれぞれの推論トレースでファインチューニングしました。その後、以下の3つの代表的な数学ベンチマークを用いて、学習済みモデルの性能を評価しました。

GSM8K
AIME 2025
MATH-500

評価においては、すべてのモデルに対して同一の条件（temperature = 0.6, top_p = 0.95, tokens_to_generate = 32768, number_of_repeats= 8）を適用し、公平性を確保しました。

精度に関する比較

表1に示すように、DeepSeek R1とGPT-OSSで学習させたモデルは、いずれも数学ベンチマークにおいて同程度の精度を達成しました。この結果は、推論トレースのスタイルが異なっても、最終的な問題解決能力に大きな差が生じないことを示唆しています。ただし、データセットによってはわずかな差が見られ、例えばMATH-500ではGPT-OSSの方が若干高い精度を示す傾向がありました。

推論効率に関する比較

一方、推論効率に関しては、GPT-OSSが圧倒的に優れていることが明らかになりました。GPT-OSSで学習させたモデルは、DeepSeek R1で学習させたモデルと比較して、平均して4分の1のトークン数で同等の精度を達成しています。これは、GPT-OSSの方がより簡潔な推論トレースを生成し、効率的な問題解決を実現していることを意味します。

精度と効率のトレードオフ

今回の実験結果から、LLMの推論能力を向上させるためには、精度だけでなく、推論効率も重要な要素であることが示唆されました。DeepSeek R1のように詳細な推論トレースは、必ずしも高い精度に繋がるとは限りません。むしろ、GPT-OSSのように簡潔で効率的な推論トレースの方が、リソース効率の高いLLM開発に適している可能性があります。

学習損失の比較

図1は、Nemotron-Nano-12B-V2をDeepSeek R1とGPT-OSSそれぞれの推論トレースでファインチューニングした際の学習損失の推移を示しています。DeepSeek R1の学習損失は非常に低い状態から始まり、トレーニング全体を通してほぼ一定に保たれています。これは、ベースモデルが既にDeepSeek R1の推論スタイルに慣れているためと考えられます。一方、GPT-OSSの学習損失は、より高い状態から始まり、徐々に減少しています。これは、ベースモデルがGPT-OSSの推論スタイルを新たに学習する必要があるためと考えられます。

最適な推論スタイルの考察

今回の実験結果を踏まえ、最適な推論スタイルについて考察します。LLMの応用分野やリソース制約に応じて、適切な推論スタイルを選択することが重要です。例えば、以下のような使い分けが考えられます。

高精度が求められる場合：DeepSeek R1のように詳細な推論トレースを用いる。
効率性が求められる場合：GPT-OSSのように簡潔な推論トレースを用いる。
リソースが限られている場合：GPT-OSSのように効率的な推論トレースを用いる。

また、複数の推論スタイルを組み合わせることで、より柔軟なLLMを開発することも可能です。例えば、DeepSeek R1で高精度な推論を行い、GPT-OSSで効率的な推論を行うといった使い分けが考えられます。

今回の実験では、数学問題という特定のタスクに焦点を当てましたが、他のタスクにおいても同様の傾向が見られるかどうかは、今後の課題です。

考察：実用的なLLM開発への応用

これまでの実験結果を踏まえ、本セクションでは実用的なLLM開発への応用について考察します。特に、推論トレースの選択、組み合わせ、効率的な学習方法に着目し、具体的な提案を行います。

推論トレースの選択：精度と効率のバランス

LLM開発において、推論精度は重要な要素ですが、同時に推論効率も無視できません。実験結果から、GPT-OSSスタイルの推論トレースはDeepSeek R1スタイルと比較して、同程度の精度を維持しつつ、トークン数を大幅に削減できることが示されました。この結果は、実用的なLLM開発において、推論コストの削減に大きく貢献する可能性を示唆しています。

例えば、チャットボットのようなリアルタイム性が求められるアプリケーションでは、推論速度がユーザーエクスペリエンスに直結します。このようなケースでは、GPT-OSSスタイルのように、より簡潔な推論トレースを選択することで、応答速度を向上させることができます。

推論トレースの組み合わせ：ハイブリッドアプローチ

単一の推論スタイルに固執せず、複数の推論スタイルを組み合わせることで、LLMの性能をさらに向上させることが可能です。例えば、DeepSeek R1スタイルの詳細な推論トレースで初期学習を行い、その後、GPT-OSSスタイルの簡潔な推論トレースでファインチューニングを行うことで、精度と効率の両立を目指すことができます。

また、問題の難易度に応じて推論スタイルを切り替えることも有効です。簡単な問題にはGPT-OSSスタイル、複雑な問題にはDeepSeek R1スタイルを用いることで、リソースを最適化しつつ、高い精度を維持することができます。

効率的な学習方法：知識蒸留の活用

大規模なLLMで生成された推論トレースは、中小規模のLLMを学習するための貴重な教師データとなります。特に、知識蒸留と呼ばれる手法を用いることで、大規模LLMの知識を効率的に中小規模LLMに転移させることができます。

知識蒸留では、大規模LLMの出力（推論トレース）を教師信号として、中小規模LLMを学習させます。この際、単に正解を教えるだけでなく、大規模LLMがどのように問題を解決したのかというプロセスを学習させることで、中小規模LLMの推論能力を効果的に向上させることができます。

具体的な提案：実用的なLLM開発に向けて

**タスクの特性を分析する：** 開発するLLMがどのようなタスクを解決するのか、その特性を詳細に分析し、最適な推論スタイルを選択する。
**データセットを多様化する：** 様々な難易度の問題を含むデータセットを構築し、LLMが多様な推論パターンを学習できるようにする。
**ハイブリッド学習戦略を採用する：** 複数の推論スタイルを組み合わせた学習戦略を採用し、精度と効率のバランスを最適化する。
**知識蒸留を活用する：** 大規模LLMで生成された推論トレースを活用し、中小規模LLMの学習効率を高める。
**継続的な評価と改善：** 開発したLLMの性能を継続的に評価し、改善を繰り返すことで、より実用的なLLMを開発する。

これらの提案を参考に、実用的なLLM開発に挑戦してみてください。

まとめ：今後の展望

本研究では、DeepSeek-R1とGPT-OSSという異なる推論スタイルを用いて生成されたトレースが、LLMの性能に与える影響を比較検証しました。数学の問題解決という具体的なタスクにおいて、両者のトレースを用いた学習が同程度の精度を達成しつつも、GPT-OSSの方がより少ないトークン数で効率的な推論を実現できることが示唆されました。

この結果は、単にトークン数を増やせば良いというわけではなく、タスクの種類やモデルの特性に応じて最適な推論スタイルを選択することが重要であることを示唆しています。また、一度学習したモデルであっても、より効率的な推論スタイルを後から学習させることが可能であるという点も、実用的なLLM開発において重要な示唆を与えます。

今後の展望

他のドメインへの拡張：本研究で得られた知見が、コーディングやクリエイティブライティングなど、他のドメインにおいても同様に適用できるのか検証する必要があります。
大規模モデルでの検証：より大規模なモデルを用いて同様の実験を行うことで、本研究の結果の一般性を確認する必要があります。
ハイブリッドな学習方法の検討：トレーニング中に複数の推論スタイルを組み合わせることで、モデルが問題の難易度に応じて最適な冗長性を適用できるようになるのかを調査する必要があります。

より高度な推論能力を持つLLMの開発に向けては、精度と効率のバランスを考慮しつつ、様々なタスクやドメインに適した最適な推論スタイルを追求していくことが重要となります。今回の研究が、その一助となれば幸いです。