MENLO徹底解説: 47言語対応LLM評価の最前線

紹介論文
1. この論文を一言でまとめると
はじめに：多言語LLM評価の課題とMENLOの登場
MENLOフレームワークの詳細：4つの主要な評価軸
MENLOデータセットの構築：47言語へのローカライズとアノテーション
LLMを自動評価者として活用：ゼロショット評価とファインチューニングの効果
強化学習によるLLMの改善：報酬モデルとしてのLLM評価者
MENLOの貢献と今後の展望：多言語LLM評価の新たな方向性

紹介論文

今回紹介する論文はMENLO: From Preferences to Proficiency — Evaluating and Modeling
Native-like Quality Across 47 Languagesという論文です。

https://arxiv.org/pdf/2509.26601v1.pdf

この論文を一言でまとめると

Metaが開発した多言語LLM評価フレームワークMENLOを徹底解説。47言語でのネイティブ品質評価、RLによる改善、そして今後の展望まで、LLM開発者必見の内容です。

はじめに：多言語LLM評価の課題とMENLOの登場

大規模言語モデル（LLM）は、その目覚ましい性能から、様々な分野で活用が進んでいます。しかし、その多くは英語を中心とした開発であり、多言語対応となると、その評価は一筋縄ではいきません。特に、**「ネイティブらしい品質」**の評価は、言語や文化のニュアンスが絡み合い、非常に難しい課題となります。

**多言語LLM評価の課題**
* 品質の定義の複雑さ: 「ネイティブらしい品質」の定義は言語や文化によって異なり、普遍的な基準を設けるのが難しい。
* 評価コストの高さ: 多数の言語に対応したLLMの品質を評価するには、各言語の専門家による評価が必要となり、コストが増大する。
* データセットの不足: 多言語に対応した高品質な評価データセットが不足しており、LLMの学習や評価を妨げている。
* バイアスの問題: 翻訳されたプロンプトやデータは、元の言語のバイアスを反映し、評価の公平性を損なう可能性がある。

そこで、Meta Superintelligence Labsは、この課題に立ち向かうべく、新たなフレームワーク **MENLO** (Multilingual Evaluation of Native-Like Output) を開発しました。MENLOは、**オーディエンスデザイン**の考え方を取り入れ、LLM応答の品質を、まるでネイティブスピーカーが書いたかのように評価する、革新的なアプローチを提供します。

MENLOの最大の特徴は、**47もの言語変種**をカバーする大規模なデータセットです。6,423ものプロンプトと応答のペアに対し、詳細なアノテーションを付与することで、LLMの多言語能力を詳細に分析することを可能にしました。

さらに、MENLOは、ネイティブらしい応答品質を測るための**4つの主要な評価軸**を定義しています。これらの軸に基づき、ゼロショットLLM評価者、強化学習（RL）、報酬整形、マルチタスク学習といった最先端の手法を駆使することで、LLMの多言語能力を飛躍的に向上させることを目指します。

MENLOは、大規模な多言語LLM評価のための実用的かつスケーラブルなアプローチを提供し、LLMの多言語能力の評価と改善における新たな研究の方向性を示唆する、多言語LLM開発者にとって非常に貴重なリソースとなるデータセットと評価フレームワークです。

本記事では、MENLOフレームワークの詳細、データセットの構築方法、そして、LLMの多言語能力を評価・改善するための様々な手法について徹底的に解説します。多言語LLM開発の最前線を、ぜひご体験ください。

MENLOフレームワークの詳細：4つの主要な評価軸

MENLOフレームワークは、LLMの応答のネイティブ品質を以下の4つの主要な軸で評価します。これらの軸は、単に文法的に正しいかだけでなく、文化的な適切性やローカルコンテキストへの理解も考慮に入れている点が特徴です。読者の皆様がMENLOの評価軸をより深く理解できるよう、具体例を交えながら詳細を解説します。

1. 流暢さ (Fluency)

専門家レベルのネイティブスピーカーと比較して、モデルの応答がどれだけ首尾一貫していて、精通していて、明確で、文法的な誤りがないかを評価します。語彙と構文、一貫性、文法とメカニズム、明瞭さと簡潔さなどが評価対象です。

流暢さは、LLMが生成する文章の読みやすさと理解しやすさを測る上で重要な指標です。具体的には、以下の要素が評価されます。

* **文法的な正確さ**: 文法、スペル、句読点などの誤りがないこと
* **語彙の適切さ**: 文脈に合った適切な単語や表現が使われていること
* **文章の構成**: 論理的な流れがあり、一貫性のある文章構造であること

例：「あなたの国の教育システムを1つ変更できるとしたら、それは何ですか？そして、それはなぜですか？」。このプロンプトに対して、流暢なLLMは、文法的に正しく、自然で読みやすい文章を生成します。さらに、教育システムに関する知識や意見を明確かつ簡潔に表現することが求められます。

2. トーン (Tone)

応答の全体的な文体または「声」を評価します。応答がどれだけ有益で、洞察力に富み、魅力的で、公平であるかなどが評価対象です。魅力的であること、公平であること、洞察力に富んでいること、可能な限り支援することなどが重要になります。

トーンは、LLMが生成する文章のスタイルや雰囲気を評価する指標です。単に正しい情報を伝えるだけでなく、読者にとって心地よく、好ましい文章であることが求められます。具体的には、以下の要素が評価されます。

* **礼儀正しさ**: 丁寧で適切な言葉遣いであること
* **共感性**: 読者の感情や状況に配慮した表現であること
* **客観性**: 特定の意見や偏見に偏らず、公平な視点であること

例：「何週間も停滞しているように感じて、途方に暮れています」。このプロンプトに対して、適切なトーンのLLMは、読者の感情に寄り添い、共感の言葉を述べるとともに、具体的なアドバイスや解決策を提示します。また、感情的な表現だけでなく、客観的な視点も持ち合わせていることが重要です。

3. ローカライズされたトーン (Localized Tone)

特定の言語変種またはロケールの文化的、地域的、言語的ニュアンスとの整合性を評価します。応答がローカルで適切な表現を使用し、文化的に敏感であるかどうかを評価します。文化的な関連性、形式と丁寧さ、ユーモア、言語のニュアンスなどが評価対象となります。

ローカライズされたトーンは、特定の地域や文化圏において、より自然で適切な表現をするための指標です。グローバルな視点だけでなく、ローカルな視点も重要になります。具体的には、以下の要素が評価されます。

* **地域特有の表現**: 特定の地域でのみ使われる言葉や言い回しを使用していること
* **文化的な配慮**: 宗教、習慣、タブーなどに配慮した表現であること
* **ユーモアの適切さ**: 文化的な背景を理解した上で、適切なユーモアを使用していること

例：「[ロケール_国籍]の友人の家族の集まりに[ロケール_国]にいると想像してください。食べ物のおかわりを丁寧に頼むにはどうすればよいですか？」。このプロンプトに対して、ローカライズされたトーンのLLMは、その国の文化や習慣に合った丁寧な言い方を生成します。例えば、日本では「おかわりいただけますか？」、アメリカでは”May I have some more?”のような表現が適切でしょう。

4. ローカライズされた事実性 (Localized Factuality)

ローカルコンテキストにおける事実性、完全性、およびグラウンディングを評価します。応答が事実に基づき、完全で、ローカルコンテキストに根ざしているかどうかを評価します。文化的な習慣、表現、概念、ローカル知識などが評価対象となります。

ローカライズされた事実性は、特定の地域や文化圏における事実や知識に基づいた正確さを評価する指標です。グローバルな情報だけでなく、ローカルな情報も重要になります。具体的には、以下の要素が評価されます。

* **正確な情報**: 地域に関する事実やデータが正確であること
* **最新の情報**: 最新の情報に基づいて応答が生成されていること
* **地域への関連性**: 回答が地域住民の関心やニーズに合致していること

例：「[ロケール_国]に滞在中、[ロケール_休日]にホストファミリーと一緒に滞在しています。彼らはあなたに準備を手伝うように誘います。どのような作業を手伝うことが期待され、それらは何を象徴していますか？」。このプロンプトに対して、ローカライズされた事実性のあるLLMは、その国の祝日や習慣に関する正確な情報を提供します。例えば、アメリカの感謝祭であれば、七面鳥を焼いたり、マッシュポテトを作ったりするなどの情報を提供します。

これらの4つの評価軸を組み合わせることで、MENLOフレームワークは、LLMの応答のネイティブ品質を総合的に評価することが可能になります。これらの軸は、単に文法的に正しいかだけでなく、文化的な適切性やローカルコンテキストへの理解も考慮に入れている点が特徴です。MENLOを活用することで、多言語LLMは、より自然で人間らしいコミュニケーションを実現できる可能性を秘めていると言えるでしょう。

MENLOデータセットの構築：47言語へのローカライズとアノテーション

MENLOの真価は、その背後にある大規模かつ高品質なデータセットにあります。ここでは、その構築プロセスを詳細に見ていきましょう。

### 47言語への翻訳とローカライズ：グローバルな視点

MENLOは、世界中で広く使われている言語とその主要な変種を網羅するため、47の言語変種に対応しています。翻訳にあたっては、単に言葉を置き換えるだけでなく、文化的なニュアンスや地域特有の表現を反映させる**ローカライズ**が重要になります。そこで、各言語変種が話されている地域出身の**ネイティブスピーカー**を翻訳者として採用し、地域に根ざした、より自然な表現を追求しました。

### 詳細なアノテーションガイドライン：品質評価の基準

多言語LLMの評価で難しいのが、評価基準の曖昧さです。MENLOでは、アノテーションの**主観性を減らし、評価の一貫性を確保**するため、詳細なガイドラインを作成しました。

ガイドラインは、4つの評価軸（流暢さ、トーン、ローカライズされたトーン、ローカライズされた事実性）を、より具体的なルーブリックと自己説明型のシグナルに分解。これにより、アノテーターは、**明確な基準**に基づいてLLMの応答を評価できます。

### 応答の生成とアノテーション：人間の目による品質チェック

プロンプトと翻訳が完了したら、いよいよLLMに回答を生成させます。MENLOでは、最新のLLMを使用して各プロンプトの応答ペアを生成し、少なくとも**3人のアノテーター**によって、その品質を**1〜5のリッカート尺度**で評価しました。

このプロセスでは、以下のような点に注意が払われました。

* 多様な視点を取り入れるため、アノテーターの選定にも工夫を凝らす
* 偏りを防ぐため、応答の順序をランダム化
* アノテーション作業を効率化するため、使いやすいツールを開発

### MENLOデータセットの統計情報：その規模と信頼性

MENLOデータセットは、多言語LLM評価において、貴重なリソースとなるでしょう。その統計情報は以下の通りです。

* 47言語変種をカバー
* 6,423のアノテーション付きプロンプト-応答ペア
* 81,014件のアノテーション
* Krippendorffのα = 0.84という**高い信頼性**

MENLOデータセットは、既存の多言語評価データセットと比較して、**最大の言語カバレッジ**を持ち、言語的受容性を超えたLLM応答の**ネイティブらしさ**に焦点を当てた最初のデータセットです。

MENLOデータセットは、[Hugging Face Hub](https://huggingface.co/datasets/facebook/menlo)で公開されており、誰でも利用できます。

このデータセットを活用することで、多言語LLMの性能をより正確に評価し、改善につなげることができるでしょう。

LLMを自動評価者として活用：ゼロショット評価とファインチューニングの効果

多言語LLMの評価において、人間の評価者による評価は非常に重要ですが、そのコストとスケーラビリティが課題となります。そこで、LLM自身を自動評価者として活用するアプローチが注目されています。本セクションでは、LLMを自動評価者として活用する際のポイント、ペアワイズ評価とルーブリックの有効性、そしてファインチューニングによる性能向上について解説します。

評価設定：ポイントワイズ評価とペアワイズ評価

MENLOでは、LLMを自動評価者として活用するにあたり、以下の2つの評価設定を比較検討しました。

ゼロショット評価：モデルは、プロンプト、単一の応答、詳細な5段階評価ルーブリックを与えられ、評価の理由付けを生成し、最終的なグレードを割り当てるように求められます。
ペアワイズ評価：モデルには、同じプロンプトに対する両方の応答が提示され、各応答にグレードを割り当てるように求められます。

評価指標

LLM評価者の性能を測るために、以下の指標を使用しました。

5段階評価のマクロF1
勝利/敗北/引き分けの結果に対するPreference精度

評価結果：ペアワイズ評価とルーブリックの有効性

評価の結果、以下の点が明らかになりました。

ペアワイズ評価は、ゼロショットおよび少数ショットのポイントワイズ評価よりも一貫して優れたパフォーマンスを示しました。特に、評価の基準が明確でない場合や、微妙なニュアンスを評価する必要がある場合に有効です。
詳細なルーブリックは、特にポイントワイズ評価で大幅な改善をもたらし、マクロF1で平均+4.3％、Preference精度で+2.5％のゲインが得られました。ルーブリックによって、LLMは評価の基準を明確に理解し、一貫性のある評価を行うことができます。
これらの結果から、LLMは個々の応答を絶対的に評価するよりも、2つの応答を比較して相対的に評価する方が得意であることが示唆されます。

ペアワイズ評価は、人間の評価者が行う評価と類似しており、より自然な評価方法と言えます。

ファインチューニングによる性能向上

ペアワイズ評価設定を使用して、Qwen3-4BおよびLlama4-ScoutをLLM評価者としてファインチューニングすることで、さらなる性能向上が見られました。

強化学習（RL）でトレーニングされたモデルは、SFT対応モデルよりも優れたパフォーマンスを発揮しました。特に、報酬整形を使用したマルチタスクLlama4-Scoutモデルは、47の言語変種全体で最強の全体的なパフォーマンスで最前線のAPIモデルを上回りました。
これらの結果は、LLMを自動評価者として活用する上で、ファインチューニングが非常に有効であることを示しています。特に、強化学習を用いることで、より高度な評価能力を獲得できる可能性があります。

結論

本セクションでは、LLMを自動評価者として活用する際のポイント、ペアワイズ評価とルーブリックの有効性、そしてファインチューニングによる性能向上について解説しました。LLMを自動評価者として活用することで、多言語LLMの評価を効率化し、開発サイクルを加速することができます。

強化学習によるLLMの改善：報酬モデルとしてのLLM評価者

大規模な多言語LLMの評価は、コストと品質の両面で大きな課題を抱えています。そこでMENLOでは、LLM自身を評価者として活用し、その評価を基にLLMを改善する強化学習（RL）のアプローチを提案しています。このセクションでは、RLを用いたLLMのネイティブ品質改善、報酬モデルとしてのLLM評価者の活用、そしてその課題について解説します。

RLによるLLMのネイティブ品質改善

RLは、エージェントが環境との相互作用を通じて最適な行動を学習する機械学習の手法です。MENLOでは、LLMを「エージェント」、プロンプトに対する応答を「行動」、そしてLLM評価者による評価を「報酬」として、LLMの応答品質を改善します。

* **報酬設計**: 効果的なRLを実現するため、絶対精度、相対的なPreferenceの整合、ニアミスの予測に対するロバスト性を組み合わせた複合報酬シグナルを設計します。具体的には、ポイントワイズバイナリ報酬、報酬平滑化、Preferenceボーナス、ペナルティなどのコンポーネントを使用します。

* **RLのワークフロー**: まず、ベースとなるLLM（例えば、Qwen3-4B）を用意します。次に、LLM評価者（例えば、ペアワイズRLでトレーニングされたQwen3-4B）を報酬モデルとして使用し、プロンプトに対するLLMの応答を評価します。そして、その評価結果（報酬）を基に、LLMの応答を改善するように学習させます。

このプロセスを繰り返すことで、LLMはよりネイティブらしい高品質な応答を生成するように進化します。

報酬モデルとしてのLLM評価者

MENLOでは、LLM評価者を報酬モデルとして使用することで、人間の評価者に頼らずに、LLMの多言語能力を改善できることを示しました。これは、評価コストを大幅に削減し、スケーラブルな多言語LLM開発を可能にする重要な成果です。

* **LLM評価者のファインチューニング**: ペアワイズ評価設定を使用して、Qwen3-4BやLlama4-ScoutなどのLLMを評価者としてファインチューニングします。

* **RLによる報酬モデルの活用**: ファインチューニングされたLLM評価者を報酬モデルとして使用し、RLによってベースのLLMを改善します。

RLによる改善の検証

RLによるLLMの改善は、LLM評価者と人間の評価者の両方で測定されます。実験の結果、LLM評価者と人間の評価者の両方で品質の向上が確認されました。しかし、LLM評価者は、人間の判断と比較して改善を過大評価する傾向があることも判明しました。

残された課題と今後の展望

LLM評価者を報酬モデルとして活用するアプローチは有望ですが、いくつかの課題も残されています。

* **評価のバイアス**: LLM評価者は、人間の評価者とは異なるバイアスを持つ可能性があり、評価結果に影響を与える可能性があります。

* **高品質なルーブリックの必要性**: LLM評価者が高品質な評価を行うためには、詳細で明確なルーブリックが必要です。

今後の研究では、これらの課題を解決し、LLM評価者の信頼性と精度を向上させるための手法を開発する必要があります。例えば、より高品質なコンテキスト固有のルーブリックを自動的に生成および評価できる技術の開発などが考えられます。

まとめ

MENLOでは、強化学習とLLM評価者を組み合わせることで、多言語LLMのネイティブ品質を改善する新しいアプローチを提案しました。このアプローチは、評価コストを削減し、スケーラブルな多言語LLM開発を可能にする可能性を秘めています。今後の研究によって、LLM評価者の信頼性と精度が向上すれば、このアプローチは多言語LLM開発のデファクトスタンダードになるかもしれません。

MENLOの貢献と今後の展望：多言語LLM評価の新たな方向性

MENLOフレームワークは、多言語LLMの評価において、そのネイティブ品質の向上に貢献するだけでなく、今後の研究開発の方向性も示唆しています。具体的には、以下の点が挙げられます。

### MENLOの主な貢献

* **多角的な評価軸の確立**: 流暢さ、トーン、ローカライズされたトーン、ローカライズされた事実性という4つの軸を組み合わせることで、LLMの会話能力を総合的に評価することを可能にしました。特にローカライズされた視点の評価は、多言語LLMにおいて重要な要素であり、MENLOの大きな貢献と言えます。
* **体系的なデータセットの構築**: 47言語に対応した大規模なデータセットは、多言語LLMの研究開発において貴重なリソースとなります。このデータセットを活用することで、LLMの性能評価や改善が促進されることが期待されます。
* **評価手法の高度化**: ペアワイズ評価や強化学習などの手法を導入することで、LLMの評価精度を向上させるだけでなく、LLM自体の性能向上にも貢献できることを示しました。

### 今後の展望

MENLOフレームワークは、今後の多言語LLM評価研究において、以下のような方向性を示唆しています。

* **ルーブリックの自動生成**: より高品質でコンテキストに特化したルーブリックを自動的に生成する技術の開発が期待されます。これにより、評価の主観性を排除し、一貫性を高めることが可能になります。
* **検索・ツール利用の統合**: LLMが外部の知識源やツールを活用することで、より正確でローカライズされた応答を生成できるようになる可能性があります。MENLOフレームワークに検索やツール利用を統合することで、LLMの能力をさらに引き出すことができるでしょう。
* **評価の自動化**: 人間の評価に頼らず、LLM自身が自己評価を行い、改善を繰り返すことができれば、開発効率が大幅に向上します。MENLOで示された強化学習の可能性は、この方向への重要な一歩と言えます。

MENLOデータセットは、Hugging Face Hubで公開されています。ぜひご活用ください。

MENLOフレームワークは、他の多言語LLM評価ベンチマークとどのように異なりますか？
MENLOは、最大の言語カバレッジを持ち、言語的受容性を超えたLLM応答のネイティブらしさに焦点を当てた最初のデータセットです。

MENLOは、多言語LLM評価において重要な一歩であり、今後の研究開発を加速させる可能性を秘めています。今後の研究によって、より高品質な多言語LLMが実現し、世界中の人々がより自然で快適なコミュニケーションを享受できるようになることが期待されます。