プロンプトは位置が重要！？ LLMの性能を左右する位置バイアス

紹介論文
1. この論文を一言でまとめると
はじめに：LLMの意外な弱点、プロンプトの位置バイアスとは？
DPPバイアスとは何か？：デモの位置がLLMの精度を左右する
研究の詳細：評価指標と実験設定
実験結果：タスクとモデル規模による位置バイアスの違い
なぜ位置バイアスは起こるのか？：メカニズムと軽減策
研究の限界と今後の展望
まとめ：プロンプトは位置が重要！

紹介論文

今回紹介する論文はWhere to show Demos in Your Prompt: A Positional Bias of In-Context
Learningという論文です。

https://arxiv.org/pdf/2507.22887v1.pdf

この論文を一言でまとめると

LLMの性能はプロンプト内のデモの位置に大きく影響を受け、その影響はタスクの種類やモデルの規模によって異なります。精度変化と予測変化という指標を用いてこのバイアスを定量化し、LLMの性能を最大限に引き出すためのプロンプト設計戦略を考察します。

はじめに：LLMの意外な弱点、プロンプトの位置バイアスとは？

大規模言語モデル（LLM）は、自然言語処理（NLP）の世界に革命をもたらしました。質問応答、テキスト生成、翻訳など、様々なタスクで目覚ましい成果を上げ、その能力は人間と遜色ないレベルにまで到達しています。しかし、LLMは万能ではありません。

LLMの性能は、プロンプトと呼ばれる指示文の設計に大きく左右されるという、意外な弱点が存在します。プロンプトとは、LLMに対する質問や指示であり、その構成、例えば指示の書き方、コンテキスト（背景情報）の与え方、提示する事例などが、モデルの出力に大きな影響を与えるのです。

プロンプトエンジニアリングは、LLMの潜在能力を最大限に引き出すための重要な技術です。

本記事では、LLMのプロンプトにおける「位置バイアス」という、比較的新しい問題に焦点を当てます。位置バイアスとは、プロンプトに含まれる情報の位置（例えば、指示文の最初、中間、最後）によって、LLMの性能が大きく変動する現象のことです。特に、インコンテキスト学習（ICL）と呼ばれる手法において、デモンストレーション（以下デモ）の位置がLLMの精度に与える影響について、最新の研究を基に深掘りしていきます。

ICLは、少数の例（デモ）をプロンプトに含めることで、LLMが新しいタスクに適応できるようにする手法です。しかし、デモの位置が結果に大きく影響するとなると、プロンプト設計はより複雑になります。本記事を通して、位置バイアスを理解し、より効果的なプロンプト設計を目指しましょう。

DPPバイアスとは何か？：デモの位置がLLMの精度を左右する

大規模言語モデル（LLM）の性能を最大限に引き出すには、プロンプトの設計が重要です。指示の書き方、コンテキストの与え方、例示の提示方法など、様々な要素がLLMの出力に影響を与えることが知られています。今回ご紹介する研究では、LLMの性能に影響を与える新たな要素として、プロンプト内のデモンストレーション（以下、デモ）の位置に着目しています。

この研究で発見されたのは、**DPPバイアス (Demos’ Position in Prompt bias)** と呼ばれる現象です。これは、プロンプト内でデモの位置を変化させるだけで、LLMの精度が大きく変動するという驚くべき発見です。具体的には、LLMの精度が最大20%も変動し、半数近くの予測が覆る可能性があることが示されました。

この研究では、以下の4つの主要なデモ配置を体系的に評価しました。

* **ssp (Start of System Prompt)**: システムプロンプトの先頭にデモを配置
* **esp (End of System Prompt)**: システムプロンプトの末尾にデモを配置
* **sum (Start of User Message)**: ユーザーメッセージ（質問）の先頭にデモを配置 (デフォルト)
* **eum (End of User Message)**: ユーザーメッセージの末尾にデモを配置

**システムプロンプト**: LLMに対する役割や指示を与える部分

**ユーザーメッセージ**: LLMに処理させたい実際の質問やタスク

主要なLLM（QWEN、LLAMA3、MISTRAL、COHERE）を用いて、分類、質問応答、要約、推論など、様々なタスクで実験が行われました。その結果、多くのLLMでは、プロンプトの先頭にデモを配置する（ssp）のが最も安定しており、高精度な結果が得られることがわかりました。

一方、ユーザーメッセージの末尾に配置する（eum）と、精度が低下し、予測が大きく変動する傾向が見られました。これは、LLMがプロンプトの構造、特にデモの位置に非常に敏感であることを示唆しています。

LLMは、デモの内容だけでなく、その位置にも影響を受ける！

これらの結果は、LLMのプロンプト設計におけるデモの位置の重要性を強調しています。単に適切なデモを選択するだけでなく、それらをプロンプト内のどこに配置するかが、モデルのパフォーマンスに大きな影響を与える可能性があるのです。

以降のセクションでは、このDPPバイアスの詳細な分析、実験設定、タスクとモデル規模による影響の違い、そしてそのメカニズムについて詳しく解説していきます。

研究の詳細：評価指標と実験設定

DPPバイアスを定量的に評価するため、本研究では以下の2つの主要な評価指標が導入されました：

* **精度変化 (Accuracy-Change)**：デモを追加したことによる精度（Accuracy）のゼロショットからの変化量を測定します。正の値は精度向上、負の値は精度低下を示します。数式で表すと以下のようになります。

“`
ΔAccuracy = Accuracy_position – Accuracy_zero-shot
“`

* **予測変化 (Prediction-Change)**：デモの位置を変えたことによって、個々の質問に対するモデルの予測がどれだけ変動するかを測定します。高い値は、デモの位置がモデルの判断に強い影響を与えていることを示します。予測変化は以下の式で定義されます。

“`
Δpred = (#answer flips) / (#Q)
“`
ここで、#Q は評価クエリの総数、#answer flips はデフォルトのICL位置（sum）から別の位置に変更した際に予測が変わった回数を表します。

これらの指標に加えて、自由形式の回答を伴うタスクでは、ROUGE-Lスコアを用いて予測の変動を評価しました。ROUGE-Lスコアは、生成された回答と正解の回答との間のテキストの重複度を測るもので、このスコアの変動が大きいほど、モデルの予測が不安定であることを示唆します。

実験では、8つの異なるタスクと、QWEN、LLAMA3、MISTRAL、COHEREという4つのオープンソースモデルファミリーから選ばれた10個のLLMが使用されました。これらのモデルは、パラメータ数やアーキテクチャが異なり、様々な規模のLLMにおけるDPPバイアスの影響を包括的に評価することが可能となっています。

* **タスク**: 実験には、以下のような多様なタスクが含まれています。
* テキスト分類 (AG News, MNLI)
* 質問応答 (SQuAD, GSM8K)
* 要約 (XSUM, CNN/DailyMail)
* 推論 (ARC, MMLU)

* **モデル**: 実験には、以下のLLMファミリーから、様々なパラメータサイズのモデルが選ばれました。
* QWEN (1.5B, 7B, 72B)
* LLAMA3 (3B, 8B, 70B)
* MISTRAL (7B, 8x7B)
* COHERE (8B, 32B)

これらのタスクとモデルの組み合わせにより、研究チームはDPPバイアスが様々な状況でどのように現れるかを詳細に分析することができました。

プロンプトの構造は、システムプロンプトとユーザーメッセージを明確に区別するために、チャット形式のテンプレートを使用しました。デモの位置は、システムプロンプトの開始（ssp）、システムプロンプトの終了（esp）、ユーザーメッセージの開始（sum）、ユーザーメッセージの終了（eum）の4つの主要な位置で体系的に変更されました。

実験設定では、デモの数も重要な変数として考慮されました。デモの数を1から5まで変化させることで、デモの数がDPPバイアスの影響をどのように変えるかを調べました。

これらの実験設定を通じて、研究チームはDPPバイアスの存在を明らかにし、その影響を定量化し、さらにはそのメカニズムに関する洞察を得ることに成功しました。次のセクションでは、これらの実験から得られた具体的な結果について詳しく見ていきましょう。

実験結果：タスクとモデル規模による位置バイアスの違い

本研究の核心に迫るのが、様々なタスクとモデルにおける実験結果の詳細な分析です。LLMの性能を左右する位置バイアスは、タスクの種類やモデルの規模によってどのように変化するのでしょうか？

実験では、分類（AG News、MNLI、ARC、MMLU）、質問応答（SQuAD、GSM8K）、要約（XSum、CNN/DailyMail）という多様なタスクに加え、QWEN、LLAMA3、MISTRAL、COHEREといった代表的なLLMファミリーから選抜された10個のモデルが使用されました。これらのモデルは、パラメータ数（1.5Bから72Bまで）やアーキテクチャが異なり、様々な規模のLLMにおける位置バイアスの影響を検証する上で重要な役割を果たしました。

早期位置（ssp, esp）が概して優位

実験の結果、多くのタスクにおいて、プロンプトの早期位置（ssp、esp）にデモを配置すると、LLMの性能が向上する傾向が確認されました。特に、AG NewsやMNLIといった分類タスクでは、sspが最も安定して高い精度を達成しています。

より具体的なデータについては、記事中の図2や表3を参照してください。

早期位置が優位となる理由としては、LLMのアーキテクチャ（自己回帰型のTransformer）に起因するプライマシーバイアスが考えられます。LLMは、プロンプトの初期のトークンに強く影響を受けるため、重要な情報であるデモをプロンプトの先頭に配置することで、より効果的に学習できる可能性があります。

タスクの種類による最適な位置の違い

しかし、最適なデモの位置は、タスクの種類によって異なることも明らかになりました。算術推論タスク（GSM8K）では、比較的小規模なモデル（1.5B〜8Bパラメータ）はsspやespといった早期位置を好む一方、LLAMA3 70Bのような大規模モデルでは、ユーザーメッセージの先頭（sum）に配置する方が良い結果が得られる場合がありました。

この結果は、タスクの種類によってLLMがプロンプト内の情報を処理する方法が異なることを示唆しています。算術推論タスクでは、より複雑な推論が必要となるため、大規模モデルはデモと質問を近い位置に配置することで、関連する情報をより効果的に活用できるのかもしれません。

モデル規模による位置バイアスの変化

モデルの規模が大きくなるにつれて、位置バイアスの影響が軽減される傾向も見られました。図4に示すように、大規模モデル（LLAMA3 70Bなど）は、小規模モデル（LLAMA3 3Bなど）と比べて、予測の変動が少なく、性能も安定しています。

図4は、モデル規模と予測変化率、精度変化の関係を示しています。モデル規模が大きくなるにつれて、DPPによる変動が小さくなる傾向が確認できます。

これは、大規模モデルがより高度な表現学習能力を備えており、プロンプト内の情報の位置にあまり依存せずに、タスクを解決できることを示唆しています。しかし、大規模モデルであっても、位置バイアスは完全に解消されるわけではありません。タスクの種類によっては、最適な位置が異なる場合があり、注意が必要です。

要約タスクにおける注意点

要約タスク（XSUM, CNN/DailyMail）では、他のタスクとは異なる傾向が見られました。早期位置（ssp, esp）に配置した場合と比べて、ユーザーメッセージの末尾（eum）に配置した場合の予測変化が大きくなる傾向が見られました。これは、テキスト生成タスクにおいて、LLMがプロンプトの末尾にある情報に過度に影響を受けやすい可能性を示唆しています。

要約タスクでは、LLMはプロンプトの末尾にある情報（例えば、質問や指示）を基にテキストを生成するため、デモを末尾に配置すると、モデルの生成するテキストがデモに強く影響される可能性があります。そのため、要約タスクにおいては、デモの位置を慎重に選択する必要があります。

位置バイアスの普遍性とタスク特異性

以上の結果から、LLMにおける位置バイアスは、普遍的な現象であると同時に、タスクの種類やモデルの規模によってその影響が異なることが明らかになりました。LLMの性能を最大限に引き出すためには、タスクとモデルに合わせてプロンプトを最適化する必要があると言えるでしょう。

なぜ位置バイアスは起こるのか？：メカニズムと軽減策

ここまで、LLMにおけるDPPバイアスという現象と、その実験結果について詳しく見てきました。では、なぜこのような位置バイアスが生じるのでしょうか？そして、このバイアスを軽減するためには、どのような対策が考えられるのでしょうか？

### 位置バイアスのメカニズムに関する考察

DPPバイアスの根本的な原因を理解することは、よりロバストなプロンプト設計と、LLMの性能向上に不可欠です。本研究では、以下の2つの主要な要因が、位置バイアスを引き起こしている可能性が示唆されています。

1. **アーキテクチャ**: LLMの多くは、Transformerアーキテクチャを基盤としており、特に因果関係のあるデコーダーモデル（Causal-decoder LLMs）において、プロンプトの初期に位置するトークンが、後続のトークンの処理に大きな影響を与えるというプライマシーバイアスが存在します。これは、自己回帰的な処理プロセスにおいて、初期の情報がモデルの内部状態を形成し、その後の予測を強く制約するためと考えられます。

アーキテクチャに関する補足： Transformerモデルは、Attentionメカニズムを用いて入力シーケンス内の各トークン間の関係性を学習しますが、因果関係のあるデコーダーモデルでは、未来のトークンを参照することができません。そのため、初期のトークンがより重要な役割を果たす可能性があります。

2. **データ**: LLMは、大量のテキストデータを用いて訓練されていますが、その訓練データには、特定のプロンプト構造（例えば、指示文の後に質問が続く、デモが特定の場所に配置されるなど）が偏って含まれている可能性があります。モデルは、これらの統計的なパターンを学習し、特定の位置にある情報に過剰に依存するようになるかもしれません。これは、分布事前知識としてモデルに組み込まれ、明示的な指示やデモの内容とは無関係に、位置情報が予測に影響を与える原因となります。

データに関する補足：Instruction-tuningされたLLM（指示によって訓練されたLLM）の場合、特定の指示構造やデモの配置が、訓練データに偏って存在している可能性が高く、位置バイアスがより顕著になることが考えられます。

### 位置バイアスの軽減策

DPPバイアスの影響を軽減し、LLMの性能を向上させるためには、以下の対策が考えられます。

* **テスト時のキャリブレーション**: 新しい質問に対してLLMを使用する際に、その質問と類似した事例を既存のデータセットから検索し、それらの事例において最適なデモ配置を特定します。そして、多数決などの手法を用いて、その質問に対するデモ配置を決定します。この手法は、Retrieval-based Calibrationと呼ばれ、実行時のオーバーヘッドは小さいものの、ある程度の性能向上が期待できます。
* **訓練データのランダム化**: LLMを訓練する際に、プロンプト内のデモの位置をランダムに置換したデータセットを使用します。これにより、モデルは特定の位置に過度に依存することを防ぎ、よりロバストな表現を獲得することが期待できます。この手法は、Post-training on randomly permuted contextsと呼ばれ、ファインチューニングや継続的な事前学習によって実現できます。

その他、アンサンブル学習などの手法も考えられます。複数の異なるデモ配置で予測を行い、それらの結果を統合することで、位置バイアスの影響を緩和することができます。

### 今後の研究の方向性

DPPバイアスの軽減策はまだ初期段階であり、今後の研究によって、より効果的な手法が開発されることが期待されます。以下は、今後の研究の方向性として考えられるものです。

* **位置バイアスのメカニズムの解明**: プライマシーバイアスや分布事前知識が、DPPバイアスにどのように影響を与えるのかをより深く理解するための研究が必要です。
* **タスクとモデルに合わせた適応的な手法の開発**: テスト時のキャリブレーションや訓練データのランダム化などの手法を、特定のタスクやモデルに合わせて最適化するための研究が必要です。
* **位置情報に依存しない新しい学習手法の開発**: プロンプト内の位置情報に依存しない、よりロバストな学習手法の開発が望まれます。

これらの研究が進むことで、LLMの性能はさらに向上し、より信頼性の高いAIシステムが実現されることが期待されます。

研究の限界と今後の展望

本研究は、LLMにおける位置バイアスという重要な問題に光を当てましたが、いくつかの限界も存在します。

* **モデルの多様性**: 評価されたモデルは、特定のアーキテクチャ（Transformer）と規模に限定されており、他の種類のLLM（例えば、対話に特化したモデル）では異なる結果が得られる可能性があります。
* **タスクのカバレッジ**: 実験は、特定のNLPタスクに限定されており、より複雑な構造を持つタスク（例えば、マルチホップ推論や対話型タスク）における位置バイアスの影響は不明です。
* **言語**: 実験は主に英語データに基づいており、多言語データにおける位置バイアスの影響は今後の研究課題です。

これらの限界を踏まえ、より多様なモデル、タスク、言語での検証が今後の課題となります。

今後の展望としては、位置バイアスのメカニズムの解明、よりロバストなICLシステムの開発、そしてモデルとタスクに合わせた最適なプロンプト設計手法の確立が挙げられます。

特に、以下の2つの方向性が重要です。

1. **テスト時のキャリブレーション**: 未知のインスタンスに対し、類似の事例を検索し、それらの事例で最適なデモ配置を多数決で決定する。
2. **訓練データのランダム化**: 訓練データにおいて、デモの位置をランダムに置換することで、モデルが特定の位置に過度に依存しないようにする。

これらの研究が進むことで、より信頼性の高いLLMシステムが実現し、様々な分野での応用が促進されることが期待されます。