MLLMを自在に制御！Reward-guided Decodingで精度と再現率を両立

紹介論文
1. この論文を一言でまとめると
イントロダクション：MLLM制御の新たな潮流
1. なぜMLLMの制御が重要なのか？
2. Reward-guided Decoding（MRGD）という新たなアプローチ
Reward-guided Decoding（MRGD）とは？仕組みを徹底解説
報酬モデル構築：精度と再現率を両立させるために
MRGD実践：精度と再現率のトレードオフを制御する
実験結果：既存手法を凌駕するMRGDの性能
まとめと今後の展望：MLLM制御の未来

紹介論文

今回紹介する論文はControlling Multimodal LLMs via Reward-guided Decodingという論文です。

https://arxiv.org/pdf/2508.11616v1.pdf

この論文を一言でまとめると

本記事では、Reward-guided Decodingという新しい手法を用いて、Multimodal Large Language Models（MLLM）の挙動をユーザーが制御する方法を解説します。特に、精度と再現率のトレードオフを制御し、多様なニーズに対応できるMLLMの活用を目指します。

イントロダクション：MLLM制御の新たな潮流

近年、Multimodal Large Language Models（MLLM）は、画像認識、自然言語処理といった複数のタスクを組み合わせた高度な処理能力を持つことから、その適用範囲を急速に拡大しています。しかし、その一方で、MLLMの挙動をユーザーの意図通りに制御することが、ますます重要な課題となっています。

なぜMLLMの制御が重要なのか？

MLLMは、多様なユーザーのニーズに対応するために、その出力を柔軟に調整できる必要があります。例えば、視覚障碍を持つユーザーは、周囲の状況を理解するために、MLLMからの幻覚（事実とは異なる情報を生成すること）が極力少ない、高精度な情報を求めています。一方、AIモデルの学習データを作成するユーザーは、多様な視点や詳細な情報を網羅した、創造性豊かなキャプションを必要とするかもしれません。

このようなニーズに対応するためには、従来のプロンプトエンジニアリングのような、試行錯誤に頼る制御手法では限界があります。また、ファインチューニングは、特定のタスクに特化したモデルを構築するには有効ですが、推論時に柔軟な制御を行うことは困難です。

Reward-guided Decoding（MRGD）という新たなアプローチ

本記事では、このような課題を解決するために、Reward-guided Decoding（MRGD）という新しい手法を紹介します。MRGDは、MLLMの生成プロセスを、報酬モデルと呼ばれるAIモデルを用いて誘導する手法です。報酬モデルは、生成されたテキストの品質を評価し、その評価に基づいて、より望ましい出力が得られるようにMLLMの挙動を調整します。

特に、本記事では、MRGDを用いて、MLLMの精度と再現率のトレードオフを制御する方法を詳しく解説します。精度とは、生成された情報がどれだけ正確であるかを表し、再現率とは、どれだけ多くの情報を網羅しているかを表します。MRGDを用いることで、ユーザーは、自身のニーズに合わせて、精度と再現率のバランスを自由に調整することができます。

本記事を通じて、読者の皆様がMRGDの基本的な概念を理解し、MLLMの可能性を最大限に引き出すための第一歩を踏み出せるようになることを願っています。

Reward-guided Decoding（MRGD）とは？仕組みを徹底解説

本セクションでは、本論文の中心となる Reward-guided Decoding（MRGD）の仕組みを徹底的に解説します。MLLM の性能を最大限に引き出す MRGD の核心に迫りましょう。

MRGD の基本概念

MRGD は、Multimodal Large Language Models（MLLM）の生成プロセスを制御するための革新的な手法です。従来の MLLM では、出力の精度や再現率を個別に制御することが困難でしたが、MRGD はこれを可能にします。具体的には、MRGD は以下の 2 つの要素を活用します。

1. **報酬モデル**: 生成されたテキストの品質を評価する
2. **探索アルゴリズム**: 報酬に基づいて最適な出力を探索する

これらの要素を組み合わせることで、MRGD は MLLM の出力をユーザーのニーズに合わせて柔軟に調整できます。

2 つの報酬モデル：精度と再現率

MRGD の特徴的な点は、視覚的なグラウンディングの精度と再現率をそれぞれ評価する 2 種類の報酬モデルを使用する点です。これらの報酬モデルは、MLLM が生成したテキストに対して、以下の観点からスコアを付与します。

* **精度**: 生成されたテキストが、画像の内容を正確に反映しているか（幻覚が少ないか）
* **再現率**: 生成されたテキストが、画像に写っているオブジェクトを網羅的に記述しているか

これらのスコアを組み合わせることで、MRGD は MLLM の出力全体を評価し、より高品質なテキストを生成するように誘導します。

生成プロセスの制御：報酬の組み合わせ

MRGD では、2 種類の報酬モデルのスコアを線形結合することで、MLLM の生成プロセスを制御します。ユーザーは、各報酬モデルの重要度を調整するための重みパラメータ（w）を設定できます。例えば、精度を重視する場合は、精度の報酬モデルの重みを大きくし、再現率を重視する場合は、再現率の報酬モデルの重みを大きくします。

例えば、視覚障碍を持つユーザー向けには、幻覚を最小限に抑えるために精度を重視した設定（w を大きくする）が有効です。一方、画像に関する詳細な情報を必要とする場合には、再現率を重視した設定（w を小さくする）が適しています。

探索アルゴリズム：最適な出力を求めて

MRGD では、報酬モデルによる評価に基づいて、最適な出力を探索するためのアルゴリズムを使用します。この探索アルゴリズムは、MLLM が生成した複数の候補テキストを評価し、最も高い報酬を得られるテキストを選択します。このプロセスを繰り返すことで、MRGD は MLLM の出力を徐々に改善し、ユーザーのニーズに合致する高品質なテキストを生成します。

従来のデコーディング手法との違い

従来のデコーディング手法（greedy decoding など）では、MLLM は最も確率の高いトークンを逐次的に選択してテキストを生成します。この手法では、計算コストを抑えることができますが、必ずしも高品質なテキストを生成できるとは限りません。一方、MRGD では、報酬モデルによる評価に基づいてテキストを生成するため、より高品質でユーザーのニーズに合致したテキストを生成できます。ただし、MRGD は探索アルゴリズムを使用するため、従来のデコーディング手法よりも計算コストが高くなる可能性があります。

まとめ

MRGD は、MLLM の生成プロセスを制御するための強力な手法であり、視覚的なグラウンディングの精度と再現率を柔軟に調整できます。次のセクションでは、MRGD の重要な要素である報酬モデルの構築方法について詳しく解説します。

報酬モデル構築：精度と再現率を両立させるために

Multimodal Large Language Models（MLLM）を効果的に制御するためには、Reward-guided Decoding (MRGD) の要となる報酬モデルの構築が不可欠です。このセクションでは、MRGDの中核を担う報酬モデルを、どのように構築していくのか、そのプロセスを詳細に解説します。特に、オブジェクトの幻覚を低減する精度と、オブジェクトの再現率を向上させることのバランスを取るための、2つの目的別の報酬モデル構築に焦点を当てます。

### 1. データセットの準備：質の高い学習データは成功の鍵

報酬モデルの学習には、高品質なデータセットが欠かせません。MRGDでは、特に以下のデータセットを活用します。

* **LLaVA-RLHF:** 人間のフィードバックに基づいて調整されたデータセット
* **RLHF-V:** 視覚的な内容に関する人間による評価を含むデータセット
* **POVID:** オブジェクトの幻覚に関する情報を含むデータセット

これらのデータセットは、一般的に公開されており、研究や実験に利用できます。ただし、それぞれのライセンス条件を確認し、適切に使用する必要があります。

これらのデータセットを組み合わせることで、幻覚が少ない応答と多い応答のペアを作成します。このペアを報酬モデルに学習させることで、より適切な判断ができるようになります。

データセットの偏りは、報酬モデルの性能に大きな影響を与えます。多様なデータセットを組み合わせることで、偏りを軽減し、汎化性能を高めることが重要です。

### 2. オブジェクト幻覚低減のための報酬モデル (r_hal) の構築

オブジェクト幻覚を低減するための報酬モデルは、与えられた画像とテキストに基づいて、テキストがどの程度正確に画像を反映しているかを評価します。このモデルは、分類器として機能し、テキストが画像の内容と一致する確率を予測します。

* **バックボーンモデルの選択:** PaliGemmaのような強力なバックボーンモデルを使用します。PaliGemmaは、画像とテキストの両方を処理できる能力に優れています。
* **回帰ヘッドの追加:** PaliGemmaの出力に、線形レイヤーからなる回帰ヘッドを追加し、単一のスカラー値を予測するようにします。このスカラー値が、テキストの正確さを表すスコアとなります。
* **損失関数の定義:** Bradley-Terryモデルをベースにした損失関数を使用します。この損失関数は、正確なテキストには高いスコアを、不正確なテキストには低いスコアを与えるようにモデルを学習させます。

“`python
# 損失関数の例（PyTorch）
def loss_function(r_hal_positive, r_hal_negative):
log_prob = -torch.log(torch.sigmoid(r_hal_positive – r_hal_negative))
mse_loss = (r_hal_positive – 1)**2 + (r_hal_negative – 0)**2
return log_prob + mse_loss
“`

### 3. オブジェクト再現率向上のための報酬モデル (r_rec) の構築

オブジェクト再現率を向上させるための報酬モデルは、テキストが画像に存在するオブジェクトをどの程度網羅的に記述しているかを評価します。このモデルは、以下の3つの既存モジュールを組み合わせて構築します。

* **オブジェクト検出器:** OWLv2などの、画像内のオブジェクトを検出するためのモデルを使用します。
* **単語埋め込みモデル:** Sentence-BERTなどの、単語や文の意味をベクトルで表現するためのモデルを使用します。
* **自然言語処理ツール:** NLTKなどの、テキストを解析するためのツールを使用します。

これらのモジュールを組み合わせることで、画像内のオブジェクトとテキスト内のオブジェクトを比較し、テキストがどの程度画像の内容を網羅しているかを評価します。

なぜ既存のモジュールを組み合わせるのですか？

既存のモジュールを組み合わせることで、個々のモジュールを新たに学習するコストを削減し、効率的に報酬モデルを構築できます。

“`python
# オブジェクト再現率の計算例
def calculate_recall(image, caption, object_detector, embedding_model, pos_tagger):
# オブジェクト検出器で画像内のオブジェクトを検出
reference_objects = object_detector.detect(image)
# POSタガーでキャプション内のオブジェクトを抽出
predicted_objects = pos_tagger.extract_objects(caption)
# 単語埋め込みモデルでオブジェクトをベクトル化
reference_embeddings = embedding_model.encode(reference_objects)
predicted_embeddings = embedding_model.encode(predicted_objects)
# オブジェクト間の類似度を計算
similarity_matrix = calculate_similarity(reference_embeddings, predicted_embeddings)
# 再現率を計算
recall = calculate_recall_score(similarity_matrix)
return recall
“`

### 4. モデルの学習と評価

構築した報酬モデルを学習データを用いて学習させます。学習時には、適切な最適化アルゴリズムと学習率を選択し、モデルが過学習しないように注意する必要があります。学習後には、検証データを用いてモデルの性能を評価し、必要に応じて調整を行います。

学習データの品質とモデルのアーキテクチャは、報酬モデルの性能に大きな影響を与えます。実験を通して最適な設定を見つけることが重要です。

### まとめ：精度と再現率を両立する報酬モデル

このセクションでは、MRGDの中核となる報酬モデルの構築方法について解説しました。オブジェクト幻覚低減とオブジェクト再現率向上という2つの目的別の報酬モデルを構築し、それらを組み合わせることで、MLLMの出力をより効果的に制御できます。次のセクションでは、これらの報酬モデルを実際に使用し、MLLMの精度と再現率のトレードオフを制御する方法について詳しく解説します。

MRGD実践：精度と再現率のトレードオフを制御する

前セクションまでで、Reward-guided Decoding (MRGD) の仕組み、そしてその重要な要素である報酬モデルの構築方法について解説してきました。このセクションでは、いよいよMRGDを実際に使用し、MLLMの出力を制御する方法を具体的に解説していきます。MRGDの真価は、ユーザーが自身のニーズに合わせて、MLLMの精度と再現率のトレードオフを柔軟に調整できる点にあります。

報酬モデルの重要度を調整する：wパラメータ

MRGDの中核となるのは、オブジェクト幻覚を抑制する報酬モデルと、オブジェクトの再現率を高める報酬モデルの2つを組み合わせることです。これらのモデルの重要度を調整するために、w というパラメータを使用します。wは0から1の間の値をとり、1に近いほど幻覚抑制を重視し、0に近いほど再現率を重視します。

数式で表すと、MRGDのスコア関数は以下のようになります。

s(xv, xq, y) = w * r_hal(xv, xq, y) + (1 – w) * r_rec(xv, xq, y)

ここで、

s(xv, xq, y)は、画像xvと指示xqに対する応答yのスコア
r_hal(xv, xq, y)は、幻覚抑制報酬モデルのスコア
r_rec(xv, xq, y)は、再現率向上報酬モデルのスコア

wの値を調整することで、ユーザーはMLLMの出力特性をインタラクティブに制御できます。

例えば、以下のような使い方が考えられます。

高精度が求められる用途：誤った情報を絶対に避けたい場合（例：医療診断支援）、wを1に近い値に設定します。
網羅性が重要な用途：多少の誤りがあっても、できる限り多くの情報を取得したい場合（例：風景の包括的な説明）、wを0に近い値に設定します。
バランスが重要な用途：精度と再現率のバランスを取りたい場合（例：一般的な画像キャプション）、wを0.5などの適切な中間値に設定します。

探索範囲を調整する：kとTパラメータ

MRGDでは、k（サンプル数）とT（評価間隔）という2つのパラメータを調整することで、計算コストと視覚的グラウンディングのバランスを制御できます。kは、各ステップで生成する候補の数を表し、Tは、報酬モデルで評価を行う間隔を表します。

kを大きくすると、より多くの候補を探索できるため、精度の高い応答が得られやすくなりますが、計算コストも増加します。一方、Tを小さくすると、より頻繁に評価を行うため、視覚的グラウンディングが向上しますが、計算コストも増加します。

これらのパラメータを調整することで、ユーザーは利用可能な計算リソースと、求められる出力品質のバランスを取ることができます。

以下に、パラメータ調整の指針を示します。

計算リソースが限られている場合：kを小さくし、Tを大きくします。
高品質な出力を得たい場合：kを大きくし、Tを小さくします。

具体的なコード例と設定方法

MRGDの実装には、PyTorchなどの深層学習フレームワークを使用できます。以下に、w、k、Tの値を設定する例を示します。


# wの値を設定（例：精度重視）
w = 0.8

# kの値を設定（例：サンプル数30）
k = 30

# Tの値を設定（例：1文ごとに評価）
T = 1

# MRGDの実行
results = mrgd(image, instruction, w=w, k=k, T=T)

これらのパラメータを調整することで、MLLMの出力特性を細かく制御し、特定のタスクやユーザーニーズに最適な応答を生成できます。ぜひ、MRGDを実際に試して、その効果を実感してみてください。

MRGDのパラメータ調整は、まるでオーディオミキサーで音質を調整するかのようです。精度、再現率、計算コストのバランスを調整し、最高のパフォーマンスを引き出しましょう。

実験結果：既存手法を凌駕するMRGDの性能

MLLM（Multimodal Large Language Models）の幻覚低減は、その信頼性を高める上で重要な課題です。本セクションでは、私たちが提案するMRGD（Reward-guided Decoding）が、既存の幻覚低減手法と比較して、いかに優れているかを実験結果に基づいて解説します。

### 標準的なオブジェクト幻覚ベンチマークでの性能比較

MRGDの有効性を評価するために、標準的なオブジェクト幻覚ベンチマークであるCHAIR [38]とAMBER [46]を使用しました。これらのベンチマークは、MLLMが生成したキャプションに含まれるオブジェクトの幻覚の程度を測定するために広く使用されています。

オブジェクト幻覚とは、画像に存在しないオブジェクトをMLLMがキャプションに含めてしまう現象のことです。

表1に、LLaVA-1.5をベースモデルとして、MRGDと既存手法の性能比較を示します。結果から、MRGDは、既存のファインチューニングやガイド付きデコーディングに基づく手法と比較して、大幅に幻覚率を低減できることがわかります。

例えば、COCOデータセットにおいて、CHAIR指標でMRGD（w=1）は、greedy decodingと比較して約70%幻覚率を低減しました。これは、オブジェクトの精度が大幅に向上したことを示しています。

### MRGDによるMLLM挙動の細かな制御

MRGDの大きな利点は、ユーザーがMLLMの挙動を細かく制御できる点です。具体的には、以下の2つの軸で制御が可能です。

1. **精度と再現率のトレードオフ**: 報酬モデルの重み（w）を調整することで、オブジェクトの精度と再現率のバランスを制御できます。例えば、w=1に設定すると、オブジェクトの精度が最大化され、w=0に設定すると、オブジェクトの再現率が最大化されます。
2. **計算コストと視覚的グラウンディングのトレードオフ**: サンプル数（k）や評価頻度（T）を調整することで、計算コストと視覚的グラウンディングのバランスを制御できます。サンプル数を増やすと、より多くの候補を評価できるため、視覚的グラウンディングが向上しますが、計算コストも増加します。

### 既存手法との比較：柔軟性と制御性の優位性

既存のファインチューニングに基づく手法（LLaVA-RLHFなど）は、特定のタスクに最適化されていますが、柔軟性に欠けるという課題があります。一方、MRGDは、推論時にパラメータを調整することで、様々なタスクやユーザーニーズに動的に対応できます。

また、ガイド付きデコーディングに基づく手法（CGDなど）と比較して、MRGDはより高度な制御が可能です。CGDは、CLIPのようなオフザシェルフのモデルを使用しますが、MRGDでは、よりタスクに特化した報酬モデルを学習できるため、より高い性能を発揮できます。

### まとめ：MRGDはMLLM制御の新たな選択肢

実験結果から、MRGDは、既存の幻覚低減手法と比較して、

* 幻覚率を大幅に低減できる
* 精度と再現率のトレードオフを制御できる
* 計算コストと視覚的グラウンディングのトレードオフを制御できる
* 様々なタスクやユーザーニーズに柔軟に対応できる

ことが示されました。MRGDは、MLLMの信頼性と柔軟性を向上させるための強力なツールとなりえます。

まとめと今後の展望：MLLM制御の未来

本記事では、Multimodal Large Language Models（MLLM）をより効果的に制御するための新たな手法、Reward-guided Decoding（MRGD）について解説しました。MRGDは、視覚的グラウンディングにおける精度と再現率のトレードオフをユーザーが自在にコントロールできる、画期的なアプローチです。

MRGDの可能性

MRGDは、MLLMの制御において以下のような新たな可能性を示唆しています。

多様なニーズへの対応：MRGDを用いることで、ユーザーは特定のタスクや状況に合わせて、MLLMの挙動を細かく調整できます。例えば、視覚障碍者向けのアプリケーションでは、高精度な出力を優先し、誤認識のリスクを最小限に抑えることができます。一方、クリエイティブな用途では、より詳細で多様な情報を生成するために、再現率を重視した設定を選択できます。
柔軟な制御：MRGDは、既存のファインチューニング手法と比較して、推論時にMLLMの挙動をより柔軟に制御できます。これにより、ユーザーは状況に応じてリアルタイムにパラメータを調整し、最適な出力を得ることができます。
幅広い応用性：MRGDは、オブジェクトの幻覚低減だけでなく、属性、数、空間関係、否定など、他の種類の視覚的幻覚にも適用できる可能性があります。

今後の展望

MRGDはまだ発展途上の技術であり、今後の研究によって、さらに多くの可能性が開かれることが期待されます。今後の展望としては、以下のような点が考えられます。

意味的に不完全な出力に対する報酬モデルの構築：現在のMRGDは、完全な文を評価する報酬モデルを使用していますが、意味的に不完全な出力に対する報酬モデルを構築することで、より柔軟な制御が可能になるかもしれません。
勾配ベースの最適化手法の導入：現在のMRGDは、探索ベースの最適化手法を使用していますが、勾配ベースの最適化手法を導入することで、より効率的な探索が可能になるかもしれません。
差別的な幻覚タスクへの拡張：現在のMRGDは、主にオブジェクトの幻覚低減に焦点を当てていますが、差別的な幻覚タスク（例えば、特定の属性を持つオブジェクトを意図的に強調する）にも拡張できる可能性があります。