FP16でAI学習の停滞を打破！意外な解決策

紹介論文
1. この論文を一言でまとめると
はじめに：AI学習の壁、精度ミスマッチとは？
1. 従来の対策とその限界
2. FP16に着目した本研究の意義
FP16 vs BF16：知っておくべき違い
FP16で学習は本当に安定するのか？実験結果を徹底分析
MoE、LoRA…様々なモデルでFP16は有効？
FP16導入の注意点と今後の展望

紹介論文

今回紹介する論文はDefeating the Training-Inference Mismatch via FP16という論文です。

https://arxiv.org/pdf/2510.26788v1.pdf

この論文を一言でまとめると

大規模言語モデルの学習における精度問題をFP16で解決する論文解説。学習と推論のミスマッチを解消し、性能向上と安定化に繋げるFP16の活用法を、具体的な事例と実験結果を基に解説します。

はじめに：AI学習の壁、精度ミスマッチとは？

大規模言語モデル（LLM）は、その高い性能から様々な分野で活用されています。しかし、LLMの性能を最大限に引き出すためには、学習（トレーニング）の安定化が不可欠です。特に、微調整（fine-tuning）と呼ばれる、特定のタスクに合わせてLLMを調整する過程では、学習が不安定になり、期待する性能が得られないという問題が頻繁に発生します。

この学習の不安定さの大きな原因の一つが、精度ミスマッチと呼ばれる現象です。精度ミスマッチとは、LLMの学習時と推論時で、数値計算の精度にズレが生じることで起こります。本来、学習と推論は数学的に同じ処理を行うはずですが、実際には、計算誤差やハードウェアによる最適化などの影響で、わずかな違いが生じてしまうのです。この小さなズレが、学習の進行とともに蓄積し、モデルの性能に悪影響を及ぼします。

従来の対策とその限界

これまで、精度ミスマッチを解消するために、様々な対策が講じられてきました。その代表的なものが、重要度サンプリングという手法を用いた、アルゴリズム的な修正です。これは、学習データに重み付けを行うことで、精度のズレを補正しようとする試みです。

しかし、これらの対策には、以下のような限界がありました。

計算コストが高い：重要度サンプリングでは、追加の計算が必要となり、学習全体の効率が低下します。
展開ギャップが残る：学習時に精度ミスマッチを補正しても、実際にモデルを運用する際には、学習時とは異なる環境で推論が行われるため、期待通りの性能を発揮できないことがあります。

これらの問題を解決するため、本研究では、精度ミスマッチの根本原因に立ち返り、浮動小数点数の精度に着目しました。そして、BF16（BFloat16）という形式が、精度ミスマッチを引き起こす主要な要因であることを突き止めました。

FP16に着目した本研究の意義

BF16は、広い範囲の数値を扱えるという利点がある一方で、精度が低いという欠点があります。この精度の低さが、学習と推論のズレを大きくしてしまうのです。そこで、本研究では、より精度の高いFP16（Float16）という形式に切り替えることで、精度ミスマッチを解消できるのではないかと考えました。

FP16は、BF16よりも扱える数値の範囲は狭いものの、精度が高いため、学習と推論のズレを小さく抑えることができます。本研究では、FP16を用いることで、学習が安定し、性能が向上することを実験的に示しました。本研究の成果は、LLMの学習における精度ミスマッチ問題に対する、シンプルかつ効果的な解決策を提供するものとして、今後のAI研究に大きく貢献することが期待されます。

FP16 vs BF16：知っておくべき違い

大規模言語モデル（LLM）の学習において、FP16に着目した意外な解決策が注目されています。そのFP16の優位性を理解するためには、まずBF16との違いを明確にする必要があります。ここでは、それぞれの技術的な背景、メリット・デメリットを比較し、FP16が精度向上に有効な理由を解説します。

浮動小数点形式の基本：指数部と仮数部の役割

浮動小数点形式は、コンピュータで実数を表現するための形式です。限られたビット数で、できる限り広い範囲の数値を、ある程度の精度で表せるように工夫されています。その基本となるのが、ビットを指数部と仮数部に分けて割り当てるという考え方です。

指数部: 値の範囲を決定します。指数部のビット数が多いほど、より大きな数値や、より小さな数値を表現できます。
仮数部: 精度を決定します。仮数部のビット数が多いほど、数値をより細かく区別でき、より正確な表現が可能になります。

つまり、指数部と仮数部は、表現できる数値の範囲と精度という、トレードオフの関係にあるのです。

FP16（Float16）：高精度だが範囲が狭い

FP16（Half-Precision Floating Point）は、IEEE 754で標準化された16ビットの浮動小数点形式です。その内訳は以下の通りです。

符号部: 1ビット
指数部: 5ビット
仮数部: 10ビット

FP16のメリットは、仮数部のビット数が多いことです。これにより、BF16と比較して高い精度で数値を表現できます。近傍の値のわずかな違いを区別する必要がある場合に有効です。

しかし、指数部が5ビットしかないため、表現できる数値の範囲が限られています。そのため、オーバーフロー（表現可能な最大値を超える）やアンダーフロー（ゼロに丸められる）が発生しやすくなります。特に、深層学習の学習においては、勾配爆発や勾配消失といった問題を引き起こす可能性があります。

FP16を使用する際には、損失スケーリングなどの安定化手法が不可欠です。損失スケーリングとは、損失関数に大きな値を掛けることで、勾配が小さくなりすぎるのを防ぐテクニックです。

BF16（BFloat16）：広い範囲だが精度は低い

BF16（Brain Floating Point）は、Googleが開発した16ビットの浮動小数点形式です。深層学習向けに設計されており、次のような特徴があります。

符号部: 1ビット
指数部: 8ビット
仮数部: 7ビット

BF16の最大の特徴は、指数部が8ビットと大きいことです。これにより、32ビットの浮動小数点形式（FP32）と同等の広いダイナミックレンジを実現しています。オーバーフローやアンダーフローが発生しにくく、数値的な安定性に優れています。

その代償として、仮数部は7ビットと少なくなっています。FP16と比較して精度が低く、細かい数値の表現には向きません。しかし、深層学習においては、ある程度の精度があれば十分な性能が得られることが知られています。

なぜFP16がLLMの精度向上に有効なのか？

論文「Defeating the Training-Inference Mismatch via FP16」では、LLMの学習において、BF16ではなくFP16を使用することで、精度が向上する理由を次のように説明しています。

FP16はBF16よりも多くの仮数ビットを提供する: より高い数値精度により、トレーニングと推論エンジン間の実装の違いに対する結果の感度が低くなります。
自動回帰サンプリングにおける累積誤差を抑制する: LLMは、前の単語に基づいて次の単語を生成するという処理を繰り返します。FP16の高い精度は、この過程で発生する小さな誤差の蓄積を抑制し、最終的な結果の精度を高めます。
RL微調整においては、精度がより重要になる: 事前学習の段階でモデルの重みと活性化のダイナミックレンジはすでに確立されているため、RL微調整においては、BF16の広い範囲はそれほど重要ではありません。むしろ、FP16の高い精度が、より良い結果をもたらすのです。

つまり、LLMの学習においては、FP16の高い精度が、BF16の広い範囲よりも重要な要素になるということです。FP16を使用することで、トレーニングと推論のミスマッチを効果的に解消し、より安定した学習と、より高い精度を実現できる可能性があります。

FP16で学習は本当に安定するのか？実験結果を徹底分析

前セクションでは、FP16（Float16）とBF16（BFloat16）の技術的な違いと、FP16が精度向上に有効な理由について解説しました。このセクションでは、FP16を実際に用いた実験結果を詳細に分析し、学習の安定性、収束速度、最終的な性能など、BF16と比較してFP16が優位性を示す点を、具体的なグラフや数値を交えて解説します。

実験設定の概要

論文では、様々な設定でFP16の効果を検証しています。具体的には、以下の要素を組み合わせた実験が行われました。

Sanityテスト: アルゴリズムの基本的な性能を評価するための、著者らが独自に設計したテスト。
アルゴリズム: GRPO, GSPO, TIS, MIS, PGなど、様々な強化学習アルゴリズムを使用。
モデルファミリー: R1D, Qwen, OctoThinkerなど、異なるアーキテクチャのモデルを使用。
微調整手法: LoRA（Low-Rank Adaptation）など、既存の微調整手法を適用。
モデルスケール: Dense-14B, MoEなど、異なるパラメータ数のモデルを使用。

これらの実験は、VeRLとOatという2つの独立した強化学習フレームワーク上で検証されています。これにより、特定の実装に依存しない、FP16の普遍的な効果を評価することが可能になっています。

FP16による全体的な結果

実験の結果、FP16を用いたトレーニングは、BF16を用いた場合と比較して、以下の点で優れていることが明らかになりました。

学習の安定性: FP16はトレーニングの初期段階から安定しており、学習が崩壊するリスクが大幅に低減されます。
収束速度: FP16はより速く収束し、同じステップ数でもより高い性能を達成できます。
最終的な性能: FP16は、最終的な報酬と評価スコアにおいて、BF16を大幅に上回る結果を示しました。

これらの結果は、精度レベルでミスマッチに対処する方が、アルゴリズム的な修正を加えるよりも、直接的かつ効果的なソリューションであることを示唆しています。

重要度サンプリングの改善

論文の中で特に注目すべき点は、FP16が重要度サンプリングの動作を根本的に改善するということです。重要度サンプリングとは、学習データに偏りがある場合に、データの重要度に応じて重み付けを行う手法です。しかし、BF16を用いた場合、重要度の推定が不安定になりやすく、学習が不安定になる原因となっていました。

FP16では、数値精度が高いため、重要度の推定がより正確になり、安定した学習が可能になります。特に、シーケンスレベルの重要度比は、分散が高いことで知られていますが、FP16を用いることで、この分散を大幅に低減できることが示されています（図2参照）。

図2: FP16は学習と推論のミスマッチを大幅に削減します。左の2つのプロットはトークンレベルの確率分布を示し、右の2つのプロットは推論ポリシー(μ)とトレーニングポリシー(π)のシーケンスレベルの対数確率比の分布を示しています。黒い点線は、ミスマッチがない完全な精度を示します。

この安定化により、従来のバイアスなしポリシー勾配推定量（修正なし）を使用することが現実的になります。驚くべきことに、FP16を搭載した場合、この単純なアプローチは、既存のすべてのアルゴリズム修正を大幅に上回る性能を発揮することが示されました。

トレーニングのダイナミクス

論文では、トレーニングの過程におけるアルゴリズムの挙動についても詳細な分析が行われています。その結果、最終的に学習が崩壊するアルゴリズムは、トレーニングと推論のミスマッチが事前に拡大することを示しており、これが潜在的な早期警戒シグナルになる可能性があることが示唆されました。

ミスマッチが拡大する期間中、ポリシーの違い π(·|θ’) – μ(·|θ’) も極端な値に収束し、一方のポリシーの確率が1に近づき、もう一方のポリシーの確率が0に近づきます（重みの同じコピーを使用しているにもかかわらず）。これは、特定の最適化バイアスによって引き起こされる可能性があり、さらなる検証が必要であると論文では指摘されています。

対照的に、安定したアルゴリズムは、有界なミスマッチを維持します。重要なことに、FP16トレーニングは、BF16メソッドよりもはるかに低いミスマッチレベルを示すことが示されています。精度レベルでのこの固有の安定性により、FP16を使用した単純なポリシー勾配が、既存のより洗練されたソリューションよりも優れたパフォーマンスを発揮できると結論付けられています。

フレームワーク固有の違い

VeRLとOatの両方のフレームワークで全体的な結論は変わらないものの、実装に依存する微妙な違いが観察されました。例えば、トレーニングと推論のミスマッチは、最初はVeRLよりもOatの方がわずかに小さいことが示されました。また、Oatは、最終的に崩壊するアルゴリズムの場合、トレーニング報酬がわずかに高くなる傾向がありました。

これらの微妙な安定性の違いは、異なる分散バックエンド（DeepSpeed ZeRO対PyTorch FSDP）に起因すると考えられます。これらの結果は、FP16の効果がフレームワークに依存しない普遍的なものであることを示唆しつつも、実装の詳細が性能に影響を与える可能性があることを示唆しています。

数値データによる裏付け

具体的な数値データも、FP16の有効性を裏付けています。Sanityテストでは、FP16はほぼ100%のトレーニング精度を達成しました。また、AIME 2024ベンチマークでは、FP16はBF16を上回る精度を達成しています。これらの結果は、FP16がLLMの学習において、安定性と性能の両方を向上させる効果的な手法であることを強く示唆しています。

まとめ: FP16は、大規模言語モデルの学習における精度ミスマッチを効果的に低減し、学習の安定性、収束速度、最終的な性能を向上させることが、詳細な実験結果によって示されました。

MoE、LoRA…様々なモデルでFP16は有効？

これまでのセクションでは、FP16がAI学習における精度ミスマッチを解消し、学習の安定性と効率を向上させることを解説してきました。しかし、これらの効果は特定のモデルや学習手法に限定されるものではないのでしょうか？本セクションでは、より複雑なモデルアーキテクチャであるMoE（Mixture-of-Experts）や、効率的な微調整手法であるLoRA（Low-Rank Adaptation）など、異なるモデルや学習設定におけるFP16の有効性を検証し、その汎用性を示します。

MoE（Mixture-of-Experts）モデルでのFP16の有効性

MoEモデルは、複数の「エキスパート」と呼ばれるサブネットワークを持ち、入力に応じて最適なエキスパートを組み合わせて処理を行うことで、高い表現能力を実現します。しかし、エキスパートの選択や組み合わせには複雑な計算が必要となり、精度ミスマッチの影響を受けやすいという課題があります。実際、MoEモデルのRL（強化学習）トレーニングは、その不安定さで知られており、多くの場合、特別な安定化戦略が必要となります。

論文では、Qwen3-30B-A3B-BaseというMoEモデルを用いて実験を行っています。その結果、FP16を使用することで、安定性が向上し、トレーニング精度が常に高くなるだけでなく、検証報酬も向上することが示されました。この改善は、GRPO-Seq-MIS、GRPO-Token-TIS、PG-Seq-TISという3つの異なるアルゴリズムすべてで一貫しており、FP16を採用することでトレーニングと推論のミスマッチが効果的に軽減され、MoEモデルの全体的なパフォーマンスが向上することが示唆されます。

MoEモデルにおけるFP16の有効性は、より複雑なモデルにおいても精度向上の恩恵を受けられることを示唆しています。

LoRA（Low-Rank Adaptation）でのFP16の有効性

LoRAは、大規模言語モデルのパラメータの一部のみを学習することで、効率的な微調整を実現する手法です。LoRAは、学習対象のパラメータ数を大幅に削減できるため、計算コストを抑えつつ、高い性能を維持することができます。しかし、LoRAもまた、数値精度に影響を受けやすいことが知られています。

論文では、Qwen2.5-Math-1.5BモデルにLoRAを適用し、BF16とFP16でトレーニングした場合の結果を比較しています。その結果、BF16ベースのLoRAトレーニングは約600ステップ後に崩壊するのに対し、FP16はトレーニング全体を通して安定していることが示されました。この結果は、LoRAのような効率的な微調整手法においても、FP16が有効であることを示しています。

大規模DenseモデルでのFP16の有効性

近年、大規模なパラメータを持つDenseモデル（MoEモデルのようにエキスパートに分割されていないモデル）が主流となっています。これらのモデルは、より高い性能を発揮する一方で、計算コストも高くなります。論文では、Qwen3-14B-Baseという大規模Denseモデルを用いて、FP16の有効性を検証しています。

実験結果から、FP16を使用したトレーニング報酬は、BF16を使用したトレーニング報酬よりもはるかに速く増加することがわかりました。また、FP16はAIME 2024という数学の問題解決ベンチマークで、より高い検証精度を達成することも示されました。これらの結果は、大規模Denseモデルにおいても、BF16の代わりにFP16を使用することで、トレーニングと推論のミスマッチが効果的に軽減され、パフォーマンスが向上することを示唆しています。

大規模DenseモデルにおけるFP16の有効性は、計算コストを抑えつつ、高い性能を維持するために重要です。

その他のモデルファミリーでのFP16の有効性

論文では、Qwenベースのモデルだけでなく、Llama3.2-3Bから中間トレーニングされたOctoThinker-3Bというモデルも用いて実験を行っています。このモデルをGRPOでトレーニングした結果、BF16トレーニングは約150ステップ後に数値的なミスマッチにより不安定化するのに対し、FP16は崩壊することなくスムーズにトレーニングを継続することが示されました。この結果は、FP16が特定のモデルファミリーに限定されず、様々なモデルで有効であることを示唆しています。

FP16の汎用性：まとめ

本セクションでは、MoEモデル、LoRA、大規模Denseモデル、そして異なるモデルファミリーにおいて、FP16が有効であることを検証しました。これらの結果は、FP16が特定のモデルアーキテクチャや学習手法に限定されず、幅広いAIモデルの学習において、その有効性を発揮することを示しています。FP16は、まさにAIモデル学習における精度向上のための万能薬と言えるかもしれません。