分解で精度UP！LLM帰属アプローチ

紹介論文
1. この論文を一言でまとめると
はじめに：LLMの信頼性と帰属の重要性
論文解説：Decomposition-Enhanced Training
DECOMPTUNEの仕組み：分解と学習の2段階
1. DECOMPTUNE：全体像
2. 分解と学習の2段階：詳細
実験結果：既存手法を凌駕する性能
DECOMPTUNEの応用と今後の展望
まとめ：信頼できるLLMへ
1. 今後の発展に期待しましょう

紹介論文

今回紹介する論文はDecomposition-Enhanced Training for Post-Hoc Attributions In Language
Modelsという論文です。

https://arxiv.org/pdf/2510.25766v1.pdf

この論文を一言でまとめると

LLMの出力根拠を明確化！分解学習による帰属性能向上を解説。信頼性UPと応用を促進します。

はじめに：LLMの信頼性と帰属の重要性

大規模言語モデル（LLM）は、質問応答、要約、コンテンツ生成といった幅広い分野で目覚ましい進化を遂げ、私たちの生活やビジネスに浸透しつつあります。しかし、その能力が向上するにつれて、LLMの「信頼性」が重要な課題として浮上してきました。

LLMの信頼性を高めるためには、その出力の根拠を明確に示すことが不可欠です。まるでレポートに参考文献リストを記載するように、LLMがどのような情報に基づいて判断したのかを示す必要があります。この根拠を示す仕組みを、本記事では「帰属（きぞく）」と呼びます。

なぜ「帰属」が重要なのか？

LLMの帰属は、以下の3つの重要な役割を果たします。

信頼性の向上: 出力の根拠が明確になることで、ユーザーはLLMの判断をより信頼できるようになります。「なんとなくAIが言っている」状態から、「〇〇という情報に基づいているから、こう判断したんだな」と納得できる状態を目指します。
説明責任の明確化: LLMが誤った情報や偏った情報に基づいて出力した場合、その原因となった情報源を特定し、責任の所在を明らかにすることができます。
誤情報の抑制: 根拠のない情報や誤った情報に基づいてLLMが出力することを防ぎ、誤情報の拡散を抑制します。

「帰属」実現への課題

しかし、LLMに適切な帰属をさせることは容易ではありません。特に、複雑なタスクにおいては、以下のような課題が存在します。

複数情報源の統合: 複数の情報源から情報を統合して回答を生成する場合、どの情報源がどの部分に影響を与えたのかを正確に特定する必要があります。
抽象的な要約: 情報を抽象化して要約する場合、元の情報源との関連性を維持しつつ、要約された内容の根拠を示す必要があります。
推論の複雑性: LLMが複雑な推論を行う場合、その推論過程を明確化し、各ステップにおける根拠を示す必要があります。

「DECOMPTUNE」：新たなアプローチ

本記事では、これらの課題を解決するための新たなアプローチとして、Sriram Balasubramaniam氏らが提案した「DECOMPTUNE」という手法を紹介します。DECOMPTUNEは、LLMの出力を分解し、各要素に根拠を紐づけることで、より正確な帰属を実現することを目指します。

参考文献:

Sriram Balasubramaniam et al. “Decomposition-Enhanced Training for Post-Hoc Attributions in Language Models.” arXiv:2510.25766v1 [cs.CL], 29 Oct 2025.

次項では、DECOMPTUNEの具体的な仕組みと、その驚くべき性能について詳しく解説していきます。

論文解説：Decomposition-Enhanced Training

大規模言語モデル（LLM）の信頼性を高めるためには、その出力の根拠を明確に示す「帰属（Attribution）」が不可欠です。しかし、既存の手法では、複雑な推論や抽象的な内容を含む場合に、適切な根拠を特定することが難しいという課題がありました。

そこで、本論文では、LLMの出力を分解し、根拠を特定する新しい学習手法「DECOMPTUNE」を紹介します。DECOMPTUNEは、LLMの回答をより小さな構成要素に分解し、それぞれの要素に対して、入力テキスト中の具体的な根拠となる箇所を特定することで、帰属の精度を向上させることを目指しています。

DECOMPTUNEの核心：推論問題としての帰属

本論文の重要な点は、従来の「帰属」を単なる検索問題として捉えるのではなく、「推論問題」として再構築したことです。LLMの回答は、複数の情報源からの情報を統合し、複雑な推論プロセスを経て生成されるため、表面的な検索だけでは、適切な根拠を見つけ出すことができません。そこで、DECOMPTUNEでは、回答を構成要素に分解することで、それぞれの要素がどのような情報に基づいて推論されたのかを明確にし、より正確な帰属を可能にしています。

DECOMPTUNEの仕組み：分解と学習の2段階

DECOMPTUNEは、以下の2段階のプロセスでLLMを学習させます。

教師あり学習（SFT）：まず、LLMに高品質な「推論トレース」を生成させます。これは、回答を論理的なサブパートに分解し、それぞれのサブパートに対する根拠となる情報源を特定するプロセスを記述したものです。この推論トレースを教師データとして、LLMをファインチューニングします。
強化学習（GRPO）：次に、SFTでファインチューニングされたLLMを、GRPO（Generalized Proximal Policy Optimization）と呼ばれる強化学習アルゴリズムを用いて、さらに最適化します。この際、タスク固有の報酬関数を設計し、LLMがより正確な帰属を行うように促します。

DECOMPTUNEのデータセット：複合的なQAタスク

DECOMPTUNEの学習には、多様な複合QAタスクのデータセットが用いられます。これらのデータセットは、複数の情報源からの情報を統合する必要がある複雑な質問応答タスクで構成されており、LLMの推論能力と帰属能力を同時に評価するのに適しています。データセットの各QAペアには、専門家によって作成された「分解アノテーション」が付与されており、LLMが回答をどのように分解し、それぞれの要素にどのような根拠を紐づけるべきかを学習するための手本となります。

DECOMPTUNEの有効性：実験結果

DECOMPTUNEの有効性を評価するために、様々な実験が行われました。その結果、DECOMPTUNEは、既存のオープンソースの帰属手法を大幅に上回り、最先端のフロンティアモデルに匹敵する性能を発揮することが示されました。特に、複数ステップの推論が必要な複雑なQAタスクにおいて、DECOMPTUNEの優位性が顕著に現れています。これらの結果は、DECOMPTUNEが、LLMの帰属精度を向上させるための強力な手法であることを示唆しています。

DECOMPTUNEは、LLMの信頼性を高め、より責任あるAIの実現に貢献する可能性を秘めた有望な研究です。

DECOMPTUNEの仕組み：分解と学習の2段階

DECOMPTUNEは、LLMの出力を分解し、その各要素に根拠を紐づけることで帰属精度を高めます。まるで、複雑な料理をレシピに分解し、各材料の出所を明らかにするようなイメージです。

DECOMPTUNE：全体像

DECOMPTUNEは、LLMの出力を「中間的な推論ステップ」として扱い、回答を直接生成するのではなく、分解された要素から根拠を特定します。これにより、複雑な質問や抽象的な回答でも、正確な根拠を見つけ出すことが可能になります。

分解と学習の2段階：詳細

DECOMPTUNEは、以下の2つの段階で構成されています。

1. 中間分解による教師あり学習 (SFT: Supervised Fine-Tuning)
* この段階では、LLMに高品質な推論トレースを生成させるために、教師あり学習を行います。具体的には、回答を論理的なサブパートに分解するように、専用のLLM（アノテーターLLM）に指示を出します。
* アノテーターLLMによって生成された推論トレース、分解された要素、そしてそれらに対応する引用情報を用いて、LLMを直接学習させます。
* 例：質問「日本の首都はどこですか？」に対し、回答が「日本の首都は東京です」の場合、「日本の首都」と「東京です」という2つの情報に分解し、それぞれにWikipediaなどの情報源から引用を紐づけます。

2. 報酬による強化学習 (GRPO: Gradient Ratio Policy Optimization)
* SFTでファインチューニングされたLLMを、事後帰属タスク用に特別にキュレーションされた報酬を用いてGRPOでさらにトレーニングします。
* この段階では、LLMのパフォーマンスを向上させ、より正確な引用を促すために、フォーマット報酬、有効性報酬、重み付けされた精度報酬という3つの種類の報酬を使用します。
*

フォーマット報酬：出力形式が正しい場合に与えられる報酬です。

有効性報酬：出力された引用が、実際に元のドキュメントに存在する場合に与えられる報酬です。

重み付けされた精度報酬：正解の引用に対する報酬を高く設定することで、精度を向上させます。

GRPOは、SFTによって得られたLLMの能力をさらに洗練させ、より高度な帰属能力を獲得させるための重要なステップです。

GRPOは、強化学習の一種であり、モデルの行動を改善するために報酬を使用します。DECOMPTUNEでは、GRPOを用いることで、LLMがより正確で信頼性の高い帰属を生成するように促しています。

実験結果：既存手法を凌駕する性能

DECOMPTUNEの真価は、その圧倒的な性能にあります。本論文で行われた厳密な実験の結果、DECOMPTUNEは既存の帰属手法を大幅に上回り、最先端モデルに匹敵する性能を発揮しました。それぞれの詳細を見ていきましょう。

既存手法を凌駕する性能

DECOMPTUNEの性能を測るため、研究チームは様々なデータセットを用いて実験を行いました。使用されたデータセットは以下の通りです。

MusiQue：複数ホップの質問応答
HotPotQA：複雑な推論を必要とする質問応答
QASPER：研究論文に関する質問応答
Verifiability：生成されたテキストの検証可能性評価

これらのデータセットに対し、精度（Precision）、再現率（Recall）、F1スコアといった指標を用いて、DECOMPTUNEと既存手法の性能を比較しました。その結果、DECOMPTUNEは全てのデータセットにおいて、既存手法を大幅に上回る性能を示しました。

DECOMPTUNEを使用してトレーニングされたQwenシリーズのモデルは、既存のオープンソースの事後帰属手法を少なくとも17パーセントポイント上回る大幅なマージンで上回っています。

最先端モデルに匹敵する性能

DECOMPTUNEの性能は、既存手法を上回るだけでなく、最先端のフロンティアモデルにも匹敵するレベルに達しています。特に注目すべきは、DECOMPTUNEが7Bや14Bといった比較的小規模なモデルで、これらの最先端モデルと同等の性能を実現している点です。

大規模モデルは計算コストが高く、導入が難しい場合があります。DECOMPTUNEは、比較的小規模なモデルでも高い性能を発揮できるため、より手軽に導入できるというメリットがあります。

GRPOによる性能向上

DECOMPTUNEの性能を最大限に引き出すためには、GRPO（Gradient Ratio Policy Optimization）と呼ばれる強化学習の手法が不可欠です。GRPOを用いることで、モデルはより正確な帰属を行うように学習され、その結果、性能が大幅に向上します。

GRPOの効果を検証するため、研究チームはGRPOありとなしでDECOMPTUNEの性能を比較しました。その結果、GRPOを用いた場合、用いなかった場合に比べて、F1スコアが最大30%向上することが確認されました。

LLMを評価者とした場合

研究チームは、LLM（GPT-4）を評価者として用いた実験も行いました。この実験では、LLMに質問、回答、引用が与えられ、引用が回答をどれだけサポートしているかを評価させました。その結果、DECOMPTUNEは、人間による評価と高い相関を示すとともに、既存手法を上回る性能を発揮しました。

まとめ

これらの実験結果から、DECOMPTUNEは既存の帰属手法を大幅に上回り、最先端モデルに匹敵する性能を発揮することが明らかになりました。DECOMPTUNEは、LLMの信頼性を高めるための強力なツールとして、今後の発展が期待されます。

DECOMPTUNEの応用と今後の展望

DECOMPTUNEは、LLMの信頼性を高めるための画期的なアプローチですが、その応用範囲は特定のタスクに留まりません。ここでは、DECOMPTUNEの応用可能性と今後の展望、そして残された課題について考察します。

様々なLLMタスクへの応用

DECOMPTUNEは、以下のような様々なLLMタスクに応用できる可能性を秘めています。

複数ステップQA： 複雑な質問に答えるために、複数の情報源を組み合わせる必要がある場合に、DECOMPTUNEは特に有効です。
要約： 長い文章を要約する際に、DECOMPTUNEは重要な情報を特定し、その根拠を示すことで、より信頼性の高い要約を生成できます。
知識集約型タスク： 事実に基づいた知識を必要とするタスクにおいて、DECOMPTUNEは情報の正確性を保証し、誤った情報の拡散を防ぐことができます。

論文内でも触れられているように、DECOMPTUNEは様々なリソース体制下での有効性とスケーラビリティが評価されており、異なる規模のLLMに対しても適用可能であることが示唆されています。

今後の展望

DECOMPTUNEはまだ発展途上の技術であり、今後の研究によって更なる可能性が開かれることが期待されます。

大規模モデルへのスケーリング： DECOMPTUNEをより大規模なLLMに適用することで、その有効性を検証し、性能を向上させることが期待されます。
他のLLMタスクへの適用： DECOMPTUNEを、翻訳、テキスト生成、対話システムなど、様々なLLMタスクに応用することで、その汎用性を高めることができます。
倫理的な考慮事項への対処： DECOMPTUNEの利用は、バイアス、プライバシー、知的財産など、様々な倫理的な問題を引き起こす可能性があります。今後の研究では、これらの問題に対処するための対策を講じる必要があります。

残された課題

DECOMPTUNEは多くの可能性を秘めている一方で、いくつかの課題も残されています。

計算コスト： DECOMPTUNEは、LLMの出力を分解し、根拠を特定する必要があるため、計算コストが高くなる可能性があります。今後の研究では、計算コストを削減するための効率的なアルゴリズムを開発する必要があります。
データセットの作成： DECOMPTUNEのトレーニングには、高品質なアノテーション付きデータセットが必要です。しかし、このようなデータセットを作成することは非常に困難です。今後の研究では、データセット作成の自動化や、既存のデータセットの活用方法を検討する必要があります。
評価方法の確立： DECOMPTUNEの性能を客観的に評価するための評価方法を確立する必要があります。今後の研究では、人間による評価や、自動評価メトリクスの開発を検討する必要があります。

DECOMPTUNEは、LLMの信頼性を高めるための有望なアプローチです。今後の研究開発によって、その応用範囲が広がり、より信頼できるLLMの実現に貢献することが期待されます。