Instella解説: フルオープンLLMの衝撃！性能、長文、数学特化モデルを徹底解剖

紹介論文
1. この論文を一言でまとめると
Instellaとは？フルオープンLLMの概要と意義
Instellaの驚異的な性能：ベンチマーク結果を徹底分析
Instella-Long：128Kトークン対応！長文処理能力の秘密
Instella-Math：数学特化モデルの可能性とGRPOの威力
Instellaの活用と今後の展望：オープンソースLLMの未来

紹介論文

今回紹介する論文はInstella: Fully Open Language Models with Stellar Performanceという論文です。

https://arxiv.org/pdf/2511.10628v1.pdf

この論文を一言でまとめると

AMDが開発したフルオープンLLM「Instella」を徹底解説。3Bモデルながら驚異的な性能、128Kトークン対応の長文モデル、数学特化モデルの秘密に迫ります。オープンソースLLMの新たな可能性を探求しましょう。

Instellaとは？フルオープンLLMの概要と意義

Instellaは、AMDが開発したフルオープンな大規模言語モデル（LLM）ファミリーです。モデルの規模を示すパラメータ数は30億（3B）と比較的コンパクトながら、既存のLLMと比較して遜色ない、あるいは凌駕する性能を実現しています。

フルオープンであることの重要性

LLMの世界では、モデルのオープン度が重要な議論の的となっています。Instellaが「フルオープン」であることは、単にモデルの重み（学習済みパラメータ）が公開されているだけでなく、以下の点において大きな意義を持ちます。

* 透明性: モデルの学習に使用されたデータ、学習方法（パイプライン）、最適化の詳細など、全てが公開されています。これにより、研究者はモデルの挙動をより深く理解し、改善に貢献できます。
* 再現性: 誰でも同じデータ、同じ手順でモデルを学習し、同じ結果を再現できます。これにより、科学的な検証が可能となり、信頼性が向上します。
* 監査可能性: モデルの学習データやプロセスを詳細に調査できるため、潜在的なバイアスや脆弱性を発見し、対策を講じることができます。
* データ汚染の防止: 学習データに意図しない情報が混入する「データ汚染」のリスクを低減できます。公開されたデータセットを精査することで、問題のあるデータを特定し、取り除くことができます。

これらの要素は、LLMの信頼性と安全性を高める上で不可欠です。特に、社会的な影響が大きい分野（医療、金融など）での利用を考える場合、透明性の高いモデルが求められます。

既存のオープンウェイトモデルとの違い

既存のLLMの中にも、モデルの重みを公開している「オープンウェイトモデル」は存在します。しかし、これらのモデルの多くは、トレーニングデータや学習パイプラインの詳細が非公開であるか、一部のみ公開されています。Instellaは、これらのモデルと比較して、より高いレベルの透明性を実現しています。

フルオープンモデルとオープンウェイトモデルの違い：
フルオープンモデルは、モデルの重みだけでなく、学習データ、学習方法、評価方法など、モデルに関する全ての情報が公開されています。一方、オープンウェイトモデルは、モデルの重みのみが公開されていることが多いです。

Instellaがもたらすメリット

Instellaのフルオープンな性質は、以下のような具体的なメリットをもたらします。

* 研究の促進: モデルの内部構造を詳細に分析できるため、LLMの研究が加速されます。新しい学習方法やアーキテクチャの開発に役立ちます。
* 公平なアクセス: 誰でも無料でモデルを利用できるため、AI技術へのアクセスが民主化されます。資金力のない研究機関や開発者も、最先端の技術を利用できます。
* イノベーションの加速: モデルを自由にカスタマイズできるため、多様な応用が生まれます。特定のタスクに特化したモデルや、特定の言語に最適化されたモデルなど、新たな可能性が広がります。

Instellaは、オープンソースLLMの新たな可能性を切り開く、画期的なプロジェクトと言えるでしょう。

Instellaの驚異的な性能：ベンチマーク結果を徹底分析

Instellaの性能を語る上で、避けて通れないのがベンチマーク結果です。本セクションでは、Instellaが様々なベンチマークでどのような成績を収めているのかを詳細に分析し、他のオープンソースLLMと比較することで、Instellaの強みと弱みを明らかにしていきます。

ベンチマークの種類と評価方法

まず、Instellaの評価に使用された主要なベンチマークの種類を確認しましょう。これらのベンチマークは、LLMの様々な能力を測るために設計されており、それぞれ異なる特性を持っています。

* **ARC-Challenge (ARC-C) & ARC-Easy (ARC-E):** 推論能力を評価するベンチマーク。常識的な知識と複雑な推論を必要とする質問が出題されます。
* **MMLU (Massive Multitask Language Understanding):** 幅広い知識領域における言語理解能力を評価するベンチマーク。高校レベルから専門知識まで、多様なトピックに関する質問が出題されます。
* **GSM8K (Grade School Math 8K):** 小学校レベルの算数の問題を解く能力を評価するベンチマーク。数理的な推論能力が試されます。
* **BBH (Beyond the Imitation Game Benchmark):** より高度な推論能力を評価するためのベンチマーク。創造性、常識、深い知識を必要とするタスクが含まれます。
* **TruthfulQA:** モデルがどれだけ真実に基づいた回答を生成できるかを評価します。意図的に誤解を招くような質問に対する回答を評価し、モデルが人間の誤りや偏見を模倣しないようにします。
* **GPQA:** 大学院レベルの質問応答能力を測るベンチマークで、高度な専門知識と深い理解が求められます。
* **IFEval:** 対話型推論能力を評価するためのベンチマークです。
* **MT-Bench:** 複数ターンの対話におけるLLMの性能を評価します。

これらのベンチマークは、基本的にzero-shot (学習データなし)、few-shot (少量の学習データあり) の設定で評価されます。

Instellaのスコアと他モデルとの比較

Instellaのスコアを他の主要なオープンソースLLMと比較してみましょう。

以下の表は、論文に掲載されているベンチマーク結果の一部を抜粋したものです。完全な結果は論文をご参照ください。

**表4: Base model performance (抜粋)**

| Models | ARC-C | ARC-E | BoolQ | HS. | PiQA | SciQ | WG. | OBQA | MMLU | BBH | GSM8K | Avg. |
| :—————- | :—- | :—- | :—- | :— | :— | :— | :— | :— | :—- | :— | :—- | :— |
| Gemma2-2B | 39.5 | 59.3 | 74.5 | 70.5 | 76.4 | 96.6 | 69.8 | 44.8 | 53.3 | 40.8 | 27.4 | 59.3 |
| Llama-3.2-3B | 47.2 | 64.9 | 74.8 | 73.1 | 75.9 | 95.3 | 70.3 | 51.2 | 57.8 | 47.0 | 30.1 | 62.5 |
| Qwen2.5-3B | 51.5 | 67.2 | 79.1 | 72.1 | 77.4 | 95.5 | 69.3 | 51.4 | 67.2 | 56.7 | 63.8 | 68.3 |
| Instella-3B | 52.8 | 70.5 | 76.5 | 75.0 | 77.8 | 96.4 | 73.1 | 52.4 | 58.3 | 39.7 | 59.8 | 66.6 |

**表6: Instruction-tuned model performance (抜粋)**

| Models | MMLU | TQA | BBH | GPQA | GSM8K | MATH | IFEval | AE2 | MT | Avg. |
| :———————- | :— | :— | :— | :— | :—- | :— | :—– | :— | :— | :— |
| Gemma-2-2B-Instruct | 58.4 | 55.8 | 43.0 | 25.2 | 53.5 | 22.5 | 55.6 | 29.4 | 8.1 | 39.0 |
| Llama-3.2-3B-Instruct | 61.5 | 50.2 | 61.5 | 29.7 | 77.0 | 46.0 | 75.4 | 19.3 | 7.1 | 47.5 |
| Qwen-2.5-3B-Instruct | 66.9 | 57.2 | 57.3 | 28.1 | 76.0 | 60.4 | 62.5 | 22.1 | 8.0 | 48.7 |
| Instella-3B-Instruct | 58.9 | 55.5 | 46.8 | 30.1 | 73.9 | 42.5 | 71.4 | 17.6 | 7.2 | 44.9 |

これらの結果から、以下の点が読み取れます。

* Instella-3Bは、ベースモデルとして、他の同規模のフルオープンモデルと比較して、全体的に高い性能を示しています。特に、WinoGrande (WG) や OpenBookQA (OBQA) で優れたスコアを記録しています。
* Instella-3B-Instructは、指示チューニングされたモデルとして、TruthfulQA, GPQA, IFEval などのタスクで強みを発揮しています。しかし、MMLUやBBHといったタスクでは、Qwen2.5-3B-Instructなどの他のオープンウェイトモデルにやや劣る結果となっています。

結果の解釈とInstellaの強みと弱み

ベンチマーク結果を詳細に分析することで、Instellaの強みと弱みをより深く理解することができます。

**Instellaの強み:**

* **優れたデータ効率:** Instellaは、他のモデルと比較して少ないpre-training token数で同等以上の性能を達成しています。これは、Instellaが学習データの質を重視し、効率的な学習を行っていることを示唆しています。
* **多様なタスクへの対応力:** Instellaは、幅広いベンチマークで良好な性能を示しており、多様なタスクに対応できる汎用性の高いモデルであることがわかります。
* **指示チューニングの有効性:** Instella-3B-Instructは、指示チューニングによって、特にTruthfulQAなどのタスクで性能が向上しています。これは、Instellaが指示に従い、真実に即した回答を生成する能力が高いことを示唆しています。

**Instellaの弱み:**

* **高度な推論能力の課題:** Instella-3B-Instructは、BBHなどの高度な推論能力を必要とするタスクでは、他のモデルにやや劣る結果となっています。これは、Instellaが複雑な推論や知識の統合において改善の余地があることを示唆しています。
* **長文処理能力の改善の余地:** Instella-Longは、長文処理能力を持つモデルですが、今後の開発によって、さらなる性能向上が期待されます。

まとめ

Instellaは、ベンチマーク結果から見ると、優れたデータ効率と多様なタスクへの対応力を持つ、有望なオープンソースLLMです。特に指示チューニングによって、指示に従い、真実に即した回答を生成する能力が向上しています。一方で、高度な推論能力や長文処理能力には改善の余地があり、今後の開発に期待がかかります。

Instellaは、そのオープン性と優れた性能によって、LLM研究と応用の新たな可能性を切り開くことが期待されます。

Instella-Long：128Kトークン対応！長文処理能力の秘密

Instellaファミリーの中でも、特に注目を集めるのが長文処理に特化したInstella-Longです。従来のLLMが抱えるコンテキスト長の制限を打ち破り、最大128Kトークンという驚異的な処理能力を実現しています。このセクションでは、Instella-Longがどのようにして長文処理を可能にしているのか、その技術的な秘密と活用方法を詳しく解説します。

Instella-Longのアーキテクチャ：RoPEスケーリングと効率的な注意機構

Instella-Longの長文処理能力は、洗練されたアーキテクチャによって支えられています。特に重要な要素は以下の2点です。

RoPE（Rotary Position Embedding）スケーリング：RoPEは、Transformerモデルにおける位置情報を効率的にエンコードする手法です。Instella-Longでは、このRoPEをスケーリングすることで、より長いシーケンスでも位置情報を正確に保持できるようになっています。RoPEスケーリングに関する実験では、emozilla氏による動的なスケーリング手法や、Gao氏らの研究など、様々なアプローチが試みられていますが、Instella-Longではこれらの手法を参考に、最適なスケーリング戦略を採用しています。
効率的な注意機構：長文シーケンスを処理する際には、計算コストが大きな課題となります。Instella-Longでは、FlashAttention 2 (Dao, 2024)などの効率的な注意機構を活用することで、計算量を削減し、長文処理を高速化しています。

128Kトークンを実現する学習方法：Continued Pre-trainingとSupervised Finetuning

アーキテクチャの最適化に加えて、Instella-Longの学習方法も長文処理能力の鍵を握っています。Instella-Longは、主に以下の2段階の学習を経て、長文処理能力を獲得しています。

Continued Pre-training（継続的な事前学習）：Instella-Longは、まず短文コンテキストのInstella-3B-Instructモデルをベースとして、長文データを用いた事前学習を行います。この段階では、RoPEのスケーリングを行いながら、徐々にコンテキスト長を拡張していきます。Prolong (Gao et al., 2024)が作成したデータセットを加工したデータを使用し、短文データと長文データを組み合わせることで、学習の安定化を図っています。
Supervised Finetuning（教師ありファインチューニング）：次に、長文の指示データを用いて、教師ありファインチューニングを行います。長文の指示データが不足しているため、Qwen2.5-14B-Instruct-1M (Yang et al., 2025b)を教師モデルとして、合成データを作成しています。この合成データと既存の短文指示データを組み合わせることで、多様な指示に対応できる長文モデルを学習しています。

長文処理能力が活きる利用シーン：法律文書、書籍、RAG

Instella-Longの長文処理能力は、様々な分野で活用できます。以下に具体的な利用シーンをいくつか紹介します。

法律文書の分析：契約書や法律文書などの長文を読み込み、重要な条項やリスクを抽出します。
書籍の要約：小説や論文などの書籍全体を要約し、内容を把握します。
Retrieval-Augmented Generation（RAG）：大量の情報を外部データベースから検索し、その情報を元に回答を生成します。128Kトークンという長大なコンテキストウィンドウを活かし、より多くの情報を参照することで、高品質な回答を実現します。

Helmetベンチマーク：長文処理能力の評価

Instella-Longの長文処理能力は、Helmetベンチマーク (Yen et al., 2024) によって評価されています。Helmetは、マルチバリューneedle-in-a-haystack（NIAH-MV）、検索拡張生成（Natural Questions, TriviaQA, HotpotQA）、長文ドキュメントQA（InfiniteBench MC/QA, NarrativeQA）など、多様なタスクを含む包括的なベンチマークです。Instella-Longは、このHelmetベンチマークにおいて、他のオープンウェイトモデルと比較して競争力のある性能を発揮しています。

長文処理における課題と今後の展望

Instella-Longは、長文処理能力において大きな進歩を遂げましたが、課題も残されています。例えば、

短文タスクにおける性能低下
計算コストのさらなる削減
より高品質な長文指示データの収集

今後の展望としては、これらの課題を克服し、長文処理能力をさらに向上させることで、より高度なAIアプリケーションの実現に貢献することが期待されます。特に、Gao氏らの研究にあるように、より長いシーケンス長での継続的な学習や、より効率的な注意機構の開発などが重要なテーマとなるでしょう。

Instella-Math：数学特化モデルの可能性とGRPOの威力

Instellaファミリーの中でも異彩を放つのが、数学特化モデルであるInstella-Mathです。LLMが持つ潜在能力を特定の分野に特化させることで、どれほどの成果が得られるのか。Instella-Mathはその可能性を鮮やかに示しています。本セクションでは、Instella-Mathの学習プロセスと、その性能を支えるGRPO（Group Relative Policy Optimization）という強化学習アルゴリズムについて詳しく解説します。

Instella-Mathの学習プロセス：SFTとGRPOの融合

Instella-Mathは、大きく分けて以下の2段階の学習プロセスを経て、数理能力を向上させています。

Supervised Fine-Tuning（SFT）：
まず、教師あり学習によって、数学的な知識と推論の基礎を築きます。具体的には、OpenMathInstruct-2やAM-DeepSeek-R1-Distilledといったデータセットを用いて、問題解決能力を向上させます。この段階では、モデルに「正しい答え」を教え込むことが重要です。
Group Relative Policy Optimization（GRPO）：
次に、強化学習アルゴリズムであるGRPOを用いて、モデルの推論能力をさらに洗練させます。GRPOは、複数段階の推論が必要な複雑な問題に対して、特に有効な手法です。具体的には、Big-Math、DeepMath、DeepScaleRといったデータセットを用いて、モデルに試行錯誤を繰り返させ、より高度な問題解決能力を習得させます。

GRPO（Group Relative Policy Optimization）とは？

GRPOは、複数段階の強化学習において、エージェント（この場合はInstella-Math）が最適な行動を学習するためのアルゴリズムです。従来の強化学習アルゴリズムと比較して、GRPOは以下の点で優れています。

グループ単位での比較：
GRPOでは、個々の行動の良し悪しを判断するのではなく、複数の行動をグループとして比較し、相対的な優劣を評価します。これにより、探索空間が広がり、より良い解を発見しやすくなります。
複数段階の推論に対応：
GRPOは、複雑な問題解決に必要な複数段階の推論を効果的に学習できます。各段階での行動を評価し、最終的な結果に繋がる最適な行動系列を学習します。
報酬設計の柔軟性：
GRPOでは、報酬関数を柔軟に設計できます。正解に辿り着くまでの過程を評価するような報酬関数を設計することで、単に正解を出すだけでなく、論理的な思考プロセスを重視した学習が可能になります。

GRPOは、OpenAIのGPTモデルなどにも応用されている最先端の強化学習アルゴリズムです。

Instella-Mathの性能：数々のベンチマークで実証された効果

Instella-Mathは、GSM8K、MATH、AIME、OlympiadBenchといった数々の数学ベンチマークで優れた性能を発揮しています。特に、戦略的推論能力を評価するTTT-Benchにおいては、他の追随を許さない圧倒的な性能を示しています。これらの結果は、GRPOによる強化学習が、LLMの数理推論能力を飛躍的に向上させることを明確に示しています。

ベンチマーク結果の一例:

AIME：他のモデルと比較して高い正解率を達成。
OlympiadBench：複雑な数学オリンピックの問題でも優れた性能を発揮。
TTT-Bench：戦略的推論能力が求められるTTT-Benchで最高のパフォーマンス。

Instella-Mathの可能性：教育、研究、金融…広がる応用分野

Instella-Mathは、その高い数理推論能力を活かして、様々な分野での応用が期待されています。

教育：
生徒一人ひとりの理解度に合わせて、最適な問題を提供する個別指導システムや、複雑な数式を分かりやすく解説する教育コンテンツの開発に役立ちます。
研究：
複雑な数理モデルの構築や、シミュレーションの高度化、データ分析の効率化に貢献します。また、新たな数学的発見を支援するツールとしての活用も期待されます。
金融：
リスク管理やポートフォリオ最適化、金融商品の価格予測など、高度な数理モデルを必要とする分野での応用が期待されます。

数理推論における課題と今後の展望

Instella-Mathは、数理推論能力において目覚ましい成果を上げていますが、課題も残されています。例えば、より複雑な問題への対応や、人間が理解しやすい形式での推論過程の説明などが挙げられます。今後の展望としては、GRPOの改良や、新たな学習手法の導入、より大規模なデータセットの活用などが考えられます。また、数理推論能力だけでなく、倫理的な問題やバイアスの軽減も重要な課題となるでしょう。

Instella-Mathは、LLMが持つ可能性を広げる画期的な成果です。今後の研究開発によって、その応用範囲はさらに拡大していくことが期待されます。

Instellaの活用と今後の展望：オープンソースLLMの未来

Instellaファミリーは、研究、開発、そして実用的なアプリケーションにおいて、オープンソースLLMの新たな可能性を切り開いています。ここでは、Instellaの具体的な活用事例を紹介し、オープンソースLLMの未来について考察します。

Instellaの具体的な活用事例

* **テキスト生成・翻訳:** Instellaは、ブログ記事の作成、小説の執筆、多言語への翻訳など、様々なテキスト生成タスクに利用できます。特に、Instella-Longの長文処理能力は、書籍の要約や論文の作成に役立ちます。
* **質問応答・チャットボット:** Instellaは、FAQシステムの構築や顧客対応チャットボットの開発に活用できます。Instella-Mathの数学的な推論能力は、技術的な質問に対する回答精度を向上させます。
* **教育分野:** Instella-Mathは、数学教育の教材作成やオンライン学習プラットフォームの開発に利用できます。生徒の理解度に合わせて問題を生成したり、個別の学習プランを提案したりすることが可能です。
* **研究開発:** Instellaは、自然言語処理の研究開発における基盤モデルとして活用できます。透明性の高いトレーニングデータやパイプラインは、再現性のある研究を促進し、新たなアルゴリズムの開発を加速させます。

オープンソースLLMの進化とInstellaの役割

オープンソースLLMは、今後ますます大規模化、多様化していくと予想されます。

* **大規模化:** モデルのパラメータ数が増加し、より複雑なタスクに対応できるようになります。
* **多様なタスクへの対応:** テキスト生成だけでなく、画像生成、音声認識、ロボット制御など、様々なタスクに対応できるようになります。
* **安全性・倫理:** 偏見や有害なコンテンツの生成を抑制するための技術が開発され、より安全で倫理的な利用が可能になります。

Instellaは、これらの進化の中で、以下のような重要な役割を果たすことが期待されます。

* **透明性の確保:** トレーニングデータやパイプラインを公開することで、モデルの挙動を理解しやすくし、信頼性を高めます。
* **再現性の向上:** 研究者が容易に実験を再現できるようにし、科学的な進歩を加速させます。
* **カスタマイズ性の提供:** 特定のタスクやドメインに特化したモデルを開発するための基盤を提供します。

Instellaの今後の開発計画

AMDは、Instellaの今後の開発計画として、以下の点を重視しています。

* **モデルの性能向上:** より大規模なデータセットでのトレーニングや新たなアーキテクチャの採用により、性能を向上させます。
* **長文処理能力の強化:** Instella-Longのコンテキストウィンドウを拡大し、より長いテキストを処理できるようにします。
* **数学的な推論能力の強化:** Instella-Mathの数学的な知識や推論能力を向上させ、より高度な問題解決を可能にします。
* **コミュニティへの貢献:** ドキュメントの整備やチュートリアルの作成などを通じて、コミュニティへの貢献を強化します。

Instellaは、オープンソースLLMの未来を担う重要なプロジェクトです。その透明性、再現性、カスタマイズ性は、研究者や開発者にとって貴重な資源となり、AI技術の発展を加速させるでしょう。