多言語LLM 評価の落とし穴

紹介論文

今回紹介する論文はTest Set Quality in Multilingual LLM Evaluationという論文です。

https://arxiv.org/pdf/2508.02635v1.pdf

この論文を一言でまとめると

多言語LLM評価におけるデータセット品質の重要性を検証。フランス語とテルグ語のデータセットを分析し、品質問題がLLM性能に大きな影響を与えることを示唆。データセットの継続的な品質保証とバージョン管理の必要性を提唱。

はじめに：多言語LLM評価の落とし穴

AI技術の進化は目覚ましく、特に大規模言語モデル（LLM）は、その多言語対応能力によって、グローバルなコミュニケーションの可能性を大きく広げています。しかし、LLMが真に多言語環境で活躍するためには、その評価方法にも目を向ける必要があります。

LLMとは、大量のテキストデータから学習し、人間が使う自然言語を理解し、生成するAIモデルのことです。

LLMの多言語能力を測るために、様々なベンチマークデータセットが開発されています。これらのデータセットは、LLMが様々な言語でどれだけ正確に情報を理解し、処理できるかを評価するための重要なツールとなります。しかし、これらのデータセットの品質には、十分な注意が払われているでしょうか？

本論文では、この重要な問題に焦点を当て、多言語LLM評価におけるデータセット品質の重要性を提起します。先行研究では、人手で作成されたデータセットでさえ誤りが存在することが指摘されています。しかし、LLMの評価に使用されるデータセット自体の品質については、十分な検証が行われていないのが現状です。

そこで本研究では、フランス語とテルグ語という2つの言語に焦点を当て、最近の多言語評価セットを手動で分析し、データセットに潜むいくつかの誤りを特定しました。さらに、LLMの性能を、オリジナルのデータセットと修正後のデータセットを用いて比較することで、データセットの品質がLLMの性能に与える影響を定量的に評価しました。

分析の結果、データセットの品質がLLMの性能に大きな影響を与えることが明らかになりました。場合によっては、両方の言語で10%近い性能差が見られました。この結果は、LLMの評価に使用されるデータセットが、不変のものではなく、常に再検討、正確性のチェック、そして必要に応じてバージョン管理されるべきであることを強く示唆しています。

データセットのバージョン管理とは、データセットの変更履歴を管理し、特定の時点のデータセットを再現できるようにすることです。

本論文では、データセットの作成者と消費者双方に対し、データセットの品質問題に対処するための具体的な推奨事項を提示します。これらの推奨事項が、多言語LLM評価の信頼性を高め、より公平で正確なAIシステムの開発に貢献することを願っています。

今後のセクションでは、データセット品質に関する既存研究の概観、本研究で使用した評価方法の詳細、INCLUDE44のフランス語とテルグ語データセットにおける具体的な品質問題の分析、MILUデータセットを用いた追加実験の結果、そして本研究の限界と今後の展望について詳しく解説します。これらの議論を通して、多言語LLM評価におけるデータセット品質の重要性について、より深く理解していただけることを期待しています。

背景：LLM評価におけるデータセット品質の重要性

多言語LLM（大規模言語モデル）の性能を正確に評価するためには、データセットの品質が非常に重要です。しかし、高品質なデータセットを作成することは容易ではありません。既存研究では、専門家が作成したデータセットでさえ、誤りが含まれていることが指摘されています。

既存研究の概観

NLP（自然言語処理）の研究において、タスク固有のデータセットは、専門家によるアノテーションが行われていても、誤りが避けられないことが知られています。例えば、Gema et al. (2025)は、広く利用されているLLM評価データセット、MMLU（Massive Multitask Language Understanding）に誤りが存在することを指摘しました。

また、Plaza et al. (2024)は、MMLUのスペイン語版を分析し、テスト項目の失敗の多くが自動翻訳によるエラーに起因することを示しました。具体的には、名前の誤訳、技術用語の不適切な翻訳、文化的なミスマッチ、文法的な誤りなどが挙げられます。

さらに、Cengiz et al. (2025)は、トルコ語の17のベンチマークデータセットを評価し、約70%が品質基準を満たしていないことを明らかにしました。

これらの研究から、データセットの品質問題は、LLMの性能評価に深刻な影響を与える可能性があることがわかります。

データセット品質問題が多言語LLM評価に与える影響

データセットの品質問題は、LLMの性能評価にバイアスをもたらす可能性があります。不正確なデータセットで学習されたLLMは、現実世界のタスクで期待されるパフォーマンスを発揮できない可能性があります。

特に、多言語LLMの場合、データセットの品質問題は言語間の公平性にも影響を与える可能性があります。例えば、ある言語のデータセットに誤りが多く含まれている場合、その言語におけるLLMの性能が過小評価される可能性があります。

翻訳の問題

多言語データセットの品質を左右する大きな要因の一つが、翻訳の問題です。自動翻訳は、常に完璧とは限りません。文化的なニュアンスや特定の言語に固有の表現を正確に翻訳することは非常に困難です。

翻訳エラーは、LLMの性能評価に直接的な影響を与えます。例えば、質問文が誤って翻訳された場合、LLMは正しい回答を導き出すことができません。

言語固有の問題

データセットの品質問題は、言語の構造や文法の違いによっても異なります。例えば、ある言語では曖昧さが少ない表現でも、別の言語では複数の解釈が可能になる場合があります。

また、低リソース言語（データやリソースが限られている言語）では、高品質なデータセットを作成することが特に困難です。

これらの言語では、翻訳リソースや専門家が不足していることが多く、データセットの品質を確保するための十分な検証が難しい場合があります。

本研究では、フランス語とテルグ語のデータセットを分析することで、言語固有の問題がLLM評価に与える影響について考察します。

論文の要約：多言語データセット品質分析へのアプローチ

本論文では、多言語LLM評価におけるデータセットの品質問題を詳細に分析するため、厳密な評価方法論を採用しています。以下に、使用されたデータセット、評価対象のLLM、そして評価指標について解説します。

使用データセット

INCLUDE44: このデータセットは、多言語LLMの評価を目的としており、Webから自動的に抽出された複数選択式の学術的・専門的な試験問題で構成されています。特に、フランス語とテルグ語のサブセットに焦点を当てています。
MILU: 11のインドの言語を網羅した多目的ベンチマークデータセットです。INCLUDE44と同様に、過去の競争試験から質問と回答を収集しています。このデータセットを使用することで、異なるデータソースからの品質問題の一貫性を検証します。

評価対象LLM

多様なLLMの性能を評価するため、オープンウェイトモデルとプロプライエタリモデルの両方を使用しています。評価対象には、以下のようなモデルが含まれます。

大規模モデル: GPT-4o, Claude-3.7, Gemini-2.0-Flash, Llama3.3-70B, Gemma3-27B
小規模モデル: Gemma3-12B, Aya-Expanse:8B, Qwen2.5-7B

大規模モデルはOpenRouter経由でアクセスし、小規模モデルはOllamaを通じてローカルで実行することで、効率的な評価を実現しています。

評価指標

多肢選択式のデータセットであるため、評価指標として精度を使用しています。オリジナル版とクリーニングされたデータセット版でLLMの精度を比較し、データセットの品質がLLMの性能に与える影響を定量的に評価します。

INCLUDE44とMILUの比較検討

INCLUDE44とMILUは、どちらもWebからの自動抽出によって構築されていますが、品質問題の性質にはいくつかの違いが見られます。

INCLUDE44: コンテキストの欠如や時間依存性のある質問が多く、不正な質問や回答の選択肢も存在します。フランス語とテルグ語では、問題の種類に差があり、テルグ語では英語の質問が大きな割合を占めています。
MILU: INCLUDE44と同様の問題が見られますが、アノテーター間の意見の不一致が少なく、より多くのサンプルが「懸念なし」として保持されています。

ポイント: INCLUDE44とMILUの比較を通じて、データセットの作成方法や言語によって品質問題が異なることを理解することが重要です。

これらの評価方法を通じて、多言語LLM評価におけるデータセット品質の重要性を明らかにしていきます。

結果：データセットの品質問題とLLM性能への影響

本セクションでは、INCLUDE44のフランス語とテルグ語データセットにおける具体的な品質問題を分析し、これらの問題がLLMの性能に与える影響を定量的に評価します。データセットの品質がLLMの評価結果にどれほど大きな影響を与えるかを具体的に見ていきましょう。

INCLUDE44データセットにおける品質問題

INCLUDE44データセットには、以下のような品質問題が見られました。

回答不能な質問: 年、国などの重要な情報が欠落しているため、回答することが不可能な質問が存在します。
不適切な質問/回答ペア: 質問または回答の選択肢が不適切であるか、論理的に矛盾しているペアが見られました。
ターゲット言語ではない質問または回答: 本来テルグ語であるべき質問や回答が、英語で記述されているケースが散見されました。特にテルグ語のサブセットで顕著です。
タイムラインの感度: 質問の回答が、参照する時間軸によって変動してしまう質問が存在します。例えば、「最近開催されたアジアU-14テニス選手権の優勝者は誰ですか？」といった質問は、いつの時点での「最近」なのかが不明確です。
地理的な依存関係: 回答が国や地域によって異なる質問も存在します。
コンテキストの欠落: 質問に答えるために必要な情報が不足しているケースが見られました。例えば、図表を参照する質問で、図表自体が提供されていないなどです。

LLMの性能への影響

上記の品質問題が、LLMの性能に具体的にどのような影響を与えたのかを見ていきましょう。

興味深いことに、大規模で高度なLLMであっても、元のデータセットと比較して、品質改善されたデータセットを用いた場合、フランス語とテルグ語の両方でパフォーマンスが大幅に向上しました。この結果は、LLMのアーキテクチャや学習データだけでなく、評価に使用するデータセットの品質が重要であることを示唆しています。

特に、フランス語のテストセットでは、小規模なローカル言語モデルの3つにおいて、品質改善後のデータセットで5％以上のパフォーマンス向上が見られました。一方、テルグ語においては、元のパフォーマンスが低かったため、パフォーマンスの向上は限定的でした（1％未満）。

さらに、GPT-4oはフランス語において9％のパフォーマンス向上を示しましたが、テルグ語では3％の向上にとどまりました。この言語間でのパフォーマンスの違いは、LLMの多言語対応能力の評価において、言語固有の課題が存在することを示唆しています。

専門家の見解と事例

データセットの品質問題がLLMの性能に与える影響について、専門家は次のように指摘しています。

「LLMの評価においては、データセットの品質が非常に重要です。不正確なデータセットを使用すると、LLMの真の能力を評価できず、誤った結論を導き出す可能性があります。」

また、データセットの品質問題が原因で、LLMが誤った結論に達した事例も存在します。

あるLLMは、不正確な情報を含むデータセットで学習した結果、特定の質問に対して誤った回答を生成するようになりました。このことは、データセットの品質がLLMの信頼性に直接影響することを示しています。

これらの結果から、LLMの評価においては、データセットの品質を厳密に管理し、継続的に改善していくことが不可欠であると言えるでしょう。

追加検証：異なるデータセットでの品質問題の再確認

多言語LLM評価において、データセットの品質はLLMの性能に大きな影響を与えることがこれまでの分析で明らかになりました。そこで、本研究では、異なるデータセットを用いても同様の傾向が見られるかを検証するため、追加実験を実施しました。

具体的には、MILU（Multi-task Indic Language Understanding）データセットのテルグ語サブセットを用いて、INCLUDE44と同様の分析を行いました。MILUは、インドの11言語を対象とした多目的ベンチマークであり、過去の試験問題から収集されたデータで構成されています。

MILUデータセットを用いた実験結果

MILUデータセットを用いた実験では、INCLUDE44と同様に、データセットの品質問題が確認されました。具体的には、不完全な質問や回答不能な質問、英語の質問などが散見されました。ただし、INCLUDE44と比較すると、アノテーター間の意見の不一致は少なく、より多くのサンプルが「懸念なし」として保持されました。

MILUデータセットのクレンジング後の保持率は77％であり、INCLUDE44と比較して高い傾向にあります。

以下の表は、MILUデータセットにおけるLLMの性能変化を示しています。

表3：MILU-Teサブセットのクリーンバージョンによるパフォーマンス（元のサブセットとの比較）

| Model | Accuracy (% Diff) |
| ——————– | —————– |
| GPT-4o | 0.74(↑4.4%) |
| Claude3.7-Sonnet | 0.74 (↑3.1%) |
| Gemini2.0-Flash | 0.84(↑2.3%) |
| Llama-3.3-70B-it | 0.64(↑2.4%) |
| Gemma3-27B-it | 0.66(↑3.6%) |
| Gemma3-12B | 0.33(0.2%) |
| Aya-Expanse:8b | 0.29 (↓ 0.1%) |
| Qwen2.5-7B | 0.33(↑1.7%) |
| LLama3.2-7B | 0.26(↓ 1.7%) |
| Gemma2-9B | 0.45(↑1.2%) |

注目すべき点として、INCLUDE44と比較して、データセットの品質問題による性能変化は小さい傾向にあります。また、クレンジング後のデータセットで性能がわずかに低下するケースも見られました。これは、過剰なクレンジングによって、LLMが学習に必要な情報が失われた可能性を示唆しています。

異なるデータセット間での品質問題の一貫性と変動

INCLUDE44とMILUの両方のデータセットにおいて、同様の品質問題が見られるものの、その程度は異なりました。このことから、データセットの作成方法やデータソースによって、品質問題の種類や頻度が変動することが示唆されます。

また、言語によって、データセットの品質問題の種類が大きく異なることも確認されました。テルグ語の場合、英語の質問の混入が大きな問題でしたが、フランス語では質問の内容自体に問題があるケースが多く見られました。

異なる言語でLLMを評価する際に、データセットの品質をどのように比較すべきでしょうか？また、データセットの品質問題は、LLMの汎化能力にどのような影響を与えるのでしょうか？

これらの疑問に対する答えを明らかにするためには、今後、より多くの言語とデータセットを用いた検証が必要となります。

限界と今後の展望

本研究は、多言語LLM評価におけるデータセット品質の重要性を示す上で一定の成果を上げましたが、いくつかの限界も存在します。第一に、分析対象とした言語がフランス語とテルグ語の2言語に限定されている点が挙げられます。また、手動アノテーションに重点を置いたため、比較的小規模なテストセットを使用せざるを得ませんでした。

しかし、これらの限界は、本研究の最終的な結論ではありません。むしろ、この研究が、より広範な議論とデータセット品質向上への取り組みを促すきっかけとなることを期待しています。

今後の研究では、より多くの言語を対象とし、より大規模なデータセットを用いた分析が求められます。特に、データセットの品質を自動的または半自動的に識別するための研究は重要です。近年開発が進んでいるLLM-as-a-judgeアプローチは、この問題に対する有望な解決策となり得るでしょう。

データセット品質の重要性を認識し、継続的な品質保証とバージョン管理を行うことは、多言語LLMの公平かつ信頼性の高い評価に不可欠です。テストセットは不変であるべきではなく、作成者自身またはLLM評価の実施者が、品質保証を継続的に行う必要があります。

また、テストセットの開発者は、バージョン管理の仕組みを導入し、評価研究では可能な限りクリーンで修正されたバージョンで結果を報告することを推奨します。モデル開発者は、自国語で小規模な定性分析を追加することで、モデルと使用されるテストデータセットの潜在的な制限を特定することを検討できます。