ApertusでLLM民主化！データ準拠＆多言語対応の最前線

紹介論文
1. この論文を一言でまとめると
はじめに：Apertusプロジェクトとは？
技術解説：Apertusのアーキテクチャとデータ
Goldfish Lossとは？記憶抑制技術の核心
多言語への挑戦：1800言語対応の舞台裏
評価と安全性：Apertusの性能を徹底検証
Apertusのこれから：グローバルなLLMの未来
1. 今後の展望
2. 貢献方法

紹介論文

今回紹介する論文はApertus: Democratizing Open and Compliant LLMs for Global Language
Environmentsという論文です。

https://arxiv.org/pdf/2509.14233v1.pdf

この論文を一言でまとめると

Apertusはデータ準拠と多言語対応を目指すオープンLLM。本記事では、その技術的特徴、倫理的配慮、そして今後の可能性を解説。グローバルな言語環境でのLLM活用を促進します。

はじめに：Apertusプロジェクトとは？

既存のLLM（大規模言語モデル）は、その驚異的な能力とは裏腹に、いくつかの課題を抱えています。データの出自や利用許諾への配慮の欠如、そして特定言語への偏重です。これらの課題は、グローバルな視点でのLLMの民主化を妨げる要因となっています。

そこで登場したのが、Apertusプロジェクトです。Apertusは、スイスAIイニシアチブによって開発された、オープンでデータ準拠、かつ多言語に対応したLLMスイートです。Apertusは、以下の二つの柱を掲げ、LLMの民主化を目指しています。

### データ準拠：倫理的なLLMの実現

多くのLLMが、データの出自や利用許諾に関する明確な情報を提供せずに公開されています。Apertusは、この状況を打破するため、以下の取り組みを行います。

* **オープンなデータソースのみを使用:** 著作権で保護されたデータや、利用許諾条件を満たさないデータは排除します。
* **robots.txtを尊重:** AIクローラーのアクセス拒否設定を遡及的に適用し、データ所有者の意向を尊重します。
* **有害コンテンツのフィルタリング:** 毒性のあるコンテンツや個人情報（PII）を徹底的に排除します。
* **Goldfish Lossによる記憶抑制:** モデルがトレーニングデータを丸暗記するリスクを軽減します。詳細は後述のセクションで解説します。

### 多言語対応：グローバルな視点でのLLM活用

現在のLLMは、英語や一部の主要言語に偏っている傾向があります。Apertusは、以下の取り組みによって、真にグローバルなLLMの実現を目指します。

* **1800以上の言語に対応:** 世界中の様々な言語で学習することで、多様なニーズに対応します。
* **非英語コンテンツへの重点配分:** 事前学習データの約40%を非英語コンテンツに割り当てることで、多言語での性能向上を図ります。

Apertusは、データ準拠と多言語対応という二つの柱を軸に、より倫理的で、よりグローバルなLLMの未来を切り開きます。次のセクションでは、Apertusのアーキテクチャとデータについて詳しく見ていきましょう。

技術解説：Apertusのアーキテクチャとデータ

Apertusは、既存のLLMが抱える課題を克服するために、データコンプライアンスと多言語対応を重視した設計がなされています。ここでは、その基盤となるアーキテクチャ、トークナイザー、そして学習データセットについて詳しく見ていきましょう。

アーキテクチャ：洗練されたTransformerモデル

Apertusは、密なデコーダー専用のTransformerアーキテクチャを採用しています。これは、入力されたテキストから次の単語を予測することに特化した構造であり、効率的な言語生成を可能にします。Apertusには、以下の2つのスケールが存在します。

Apertus 8B: 32層、32並列アテンションヘッド
Apertus 70B: 80層、64並列アテンションヘッド

また、活性化関数にはxIELU、最適化にはAdEMAMix、正則化にはQK-NormとPre-Normを使用し、学習の安定性と効率を向上させています。さらに、最大65kトークンという長文コンテキストをサポートしており、長大なテキストの処理も得意としています。

トークナイザー：多言語対応を支える技術

Apertusのトークナイザーは、バイトレベルのBPE（Byte-Pair Encoding）モデルをベースにしています。これは、テキストをサブワードに分割することで、未知語への対応力を高め、多言語処理を効率化する技術です。語彙サイズは131,072サブワードと大規模で、Mistral-Nemo-Base-2407のv3 tekkenトークナイザーをベースに適応させています。

学習データセット：1800言語の知識の源泉

Apertusは、1811言語のテキストを含む15T（テラ）トークンもの大規模なコーパスで学習されています。このデータセットは、主にFineWeb-2データセットから構成され、その他にも、以下のような多様なデータソースが利用されています。

英語データセット: FineWeb-HQ、FineWeb-Edu、DCLM-Edu
コード、数学、構造化データセット: StarCoderData、CommonPile/Stack v2 Edu、FineMath
ダウンストリーム分析用データ: Memorization Analysis Data、Data Poisoning Synthetic Data
翻訳並列データ: EuroParl、ParaDocs
クリーンなWikipedia

データコンプライアンスと倫理的配慮：責任あるAIのために

Apertusの学習データの収集と利用においては、データコンプライアンスと倫理的配慮が最重要視されています。具体的には、以下の対策が講じられています。

AIクローラーのブロックを遡及的に適用し、データオプトアウトを尊重
個人情報（PII）の削除
多言語対応の有害コンテンツフィルタリング

また、データ利用における法的評価（スイス法）も実施されており、透明性と責任あるAI開発を追求する姿勢が示されています。

Apertusは、高度な技術と倫理的な配慮を組み合わせることで、グローバルな言語環境において真に役立つLLMの実現を目指しています。

Goldfish Lossとは？記憶抑制技術の核心

Apertusプロジェクトが注目を集める理由の一つに、その記憶抑制技術があります。特に、**Goldfish Loss**という手法は、LLM（大規模言語モデル）の記憶メカニズムに革新的なアプローチを提供します。ここでは、Goldfish Lossの仕組み、その効果、そして他の記憶抑制技術との違いについて、詳しく解説します。

Goldfish Lossの概要：選択的マスキングによる記憶の抑制

Goldfish Lossは、Apertusモデルの事前学習段階で採用される、記憶抑制を目的とした損失関数です。従来のクロスエントロピー損失とは異なり、Goldfish Lossでは、シーケンス中の**トークンの一部のみ**を選択的にマスクし、そのマスクされたトークンに基づいて損失を計算します。この選択的なマスキングこそが、Goldfish Lossの核心です。

具体的には、トレーニング中に各バッチに対して、ランダムに生成されるバイナリマスク *G* を利用します。このマスク *G* は、シーケンス中の各トークンが損失計算に**含まれるか（1）**、**除外されるか（0）**を決定します。

Goldfish Lossの仕組み：数式で理解する選択的マスキング

Goldfish Lossは、シーケンス長を *L* 、*i* 番目のトークンを *x_i*、先行コンテキストを *x_{* とすると、以下の式で定義されます。}

“`
L(θ) = (1/L) Σ G_i log Pθ(x_i | x_{i | x_{)* は、モデル *θ* が先行コンテキスト *x_{* を与えられたときに、トークン *x_i* を予測する確率を表します。重要なのは、総和がマスク *G* によって制御され、損失が選択されたトークンに対してのみ計算される点です。}}

この数式は、一見すると複雑に見えるかもしれませんが、要するに、Goldfish Lossは、LLMがすべてのトークンを均等に学習するのではなく、**重要なトークンに焦点を当てて学習する**ように設計されていることを意味します。

Goldfish Lossの効果：大規模モデルでも有効な記憶抑制

Goldfish Lossは、以下の点で優れた効果を発揮します。

* **ベ verbatimの想起を抑制:** 大規模モデルスケール（Apertus-70Bなど）でも、トレーニング中に大量のデータに触れた後でも、トレーニングデータの内容をそのまま記憶してしまう現象（ベ verbatimの想起）を効果的に抑制します。
* **パフォーマンスへの影響を最小限に:** 記憶抑制と同時に、perplexity（言語モデルの性能指標）や他のダウンストリームベンチマークのパフォーマンスへの悪影響を最小限に抑えます。つまり、Goldfish Lossは、記憶を抑制しながらも、モデルの言語理解能力を維持することができます。
* **最適な構成:** Xu (2025)による調整の結果、2%のトークンマスキング率（k = 50）と、ハッシュ化のための50トークンコンテキストウィンドウ（h = 50）の組み合わせが、最適な構成であることが判明しました。

他の記憶抑制技術との違い：Goldfish Lossの独自性

LLMの記憶抑制技術は、Goldfish Loss以外にも存在します。例えば、知識編集や情報削除などが挙げられますが、Goldfish Lossは、以下の点で独自性を持つと考えられます。

* **事前学習段階での抑制:** 多くの記憶抑制技術が、モデルの学習後に行われるのに対し、Goldfish Lossは事前学習段階で記憶を抑制します。これにより、最初から記憶を抑制したモデルを構築できます。
* **選択的なマスキング:** Goldfish Lossは、すべてのトークンを排除するのではなく、重要なトークンに焦点を当てて学習するため、モデルの表現能力を維持しやすいと考えられます。

Goldfish Lossは、Apertusがデータ準拠を実現するための重要な要素の一つです。今後の研究によって、その有効性と適用範囲がさらに明らかになることが期待されます。

多言語への挑戦：1800言語対応の舞台裏

Apertusプロジェクトが真にグローバルなLLMを目指す上で、多言語対応は避けて通れない道でした。しかし、既存のモデルでは、対応言語が限られていたり、特定の言語に偏っていたりする状況がありました。Apertusは、これらの課題を克服し、1800もの言語に対応するという、前例のない挑戦に挑みました。

データ収集：言語の多様性を求めて

Apertusが多言語対応を実現する上で最も重要な要素の一つが、学習に使用するデータセットです。Apertusは、FineWeb-2データセットを基盤とし、世界中の様々な言語のテキストデータを収集しました。このデータセットは、1811もの言語を網羅しており、Apertusに広範な言語知識を与える基盤となりました。

しかし、データの収集は単なる始まりに過ぎません。収集したデータは、言語ごとに品質や量にばらつきがあります。そこで、Apertusチームは、各言語の特性を考慮しながら、データセットのバランスを調整し、モデルが特定の言語に過度に偏らないように注意を払いました。具体的には、リソースが豊富な言語（英語など）のデータ量を調整し、リソースが少ない言語のデータを重点的に使用するなどの工夫を行っています。

学習戦略：言語のニュアンスを捉える

Apertusの学習戦略は、多言語能力を最大限に引き出すために、いくつかの段階に分けられています。初期段階では、広範な自然言語モデリングと基本的な数学的およびコーディング能力の学習に重点を置き、徐々に数学およびコードデータの割合を高めています。この段階的なアプローチにより、モデルは基本的な言語構造を理解し、その後、より高度な概念を学習することができます。

多言語データセットの作成は、非常に複雑な作業です。Apertusチームは、様々な言語の専門家と協力し、データの品質を確保し、文化的な偏見を排除するための努力を重ねました。

評価方法：多角的な視点から性能を測る

Apertusの多言語能力を評価するために、様々なベンチマークが使用されました。これらのベンチマークは、知識、文化理解、推論能力など、様々な側面からモデルの性能を測定します。また、評価対象となる言語も、高リソース言語だけでなく、アフリカの言語など、これまでオープンLLMトレーニングで考慮されていなかった低リソース言語も含まれています。

評価の結果、Apertusは、既存のモデルと比較して、多言語対応において優れた性能を発揮することが示されました。特に、低リソース言語における性能向上が著しく、Apertusが言語の多様性を尊重するLLMの実現に貢献していることが示唆されています。

今後の展望：さらなる言語の探求

Apertusプロジェクトは、多言語対応の分野において、まだ始まったばかりです。今後は、さらに多くの言語に対応し、より洗練された学習戦略を開発することで、より多くの人々がLLMの恩恵を受けられるようにすることを目指しています。Apertusの挑戦は、グローバルな言語環境におけるLLMの可能性を広げる上で、重要な一歩となるでしょう。

評価と安全性：Apertusの性能を徹底検証

Apertusプロジェクトは、データ準拠と多言語対応という二つの重要な側面を重視していますが、それだけではありません。その性能、安全性、そして倫理的な側面もまた、徹底的に検証されています。ここでは、Apertusがどのように評価され、どのような安全対策が講じられているのかを詳しく見ていきましょう。

性能評価：多岐にわたる能力を測る

Apertusの性能評価は、以下の3つの主要な領域に焦点を当てています。

* **一般言語理解:** HELLASWAG、ARC、Winogradといったベンチマークを用いて、言語の理解度を測ります。
* **事実知識獲得:** MMLU、Global-MMLUなどのベンチマークを用いて、事実に基づいた知識をどれだけ獲得しているかを評価します。
* **多言語能力:** 多様な言語に対応しているかを評価するために、様々な言語で同様のテストを実施します。

これらの評価を通じて、Apertusが様々なタスクや言語において優れた性能を発揮することが確認されています。

安全性評価：潜在的なリスクを特定する

Apertusの安全性評価では、以下の側面を検証しています。

* **BBQ:** 有害な社会的偏見を評価します。
* **HarmBench:** 有害な行動を誘発する可能性を評価します。
* **RealToxicityPrompts:** 意図せずに有害なコンテンツを生成する可能性を評価します。

これらの評価を通じて、Apertusが潜在的なリスクを軽減するための対策を講じていることが確認されています。

既存の安全評価ツールにおける問題点

興味深いことに、Apertusの評価プロセスにおいて、既存の安全評価ツールにも問題点があることが明らかになりました。特に多言語設定においては、有害性の検出が難しい場合があることが判明しています。これは、今後の安全評価ツール開発において重要な課題となるでしょう。

Apertusは、単に高性能なLLMであるだけでなく、安全性と倫理的な配慮も兼ね備えた、責任あるAI開発の模範となることを目指しています。

Apertusのこれから：グローバルなLLMの未来

Apertusプロジェクトは、データ準拠と多言語対応という二つの大きな柱を掲げ、LLMの民主化を目指しています。このプロジェクトが目指す未来はどのようなものでしょうか？

今後の展望

スケーリング: より大規模なモデル、そして長文コンテキストを扱えるモデルの開発。データコンプライアンスと透明性の維持は必須です。
蒸留: 70Bモデルの知識を、より小型でリソース制約のある環境でも利用可能なモデルへと移植。多言語対応と安全性を損なわずに実現します。
データと性能のマッピング: どのようなデータが、LLMの能力、公平性、記憶に影響を与えるのかを体系的に解明します。データガバナンスに関する研究も重要です。
適応型計算による推論: より難しいタスクに対して、より多くの計算リソースを割り当てる仕組みを研究します。
検証可能な推論ステップを用いたRLパイプラインの開発: 数学やコード生成など、検証可能な推論ステップを用いることで、より信頼性の高いLLMを実現します。
マルチモーダル機能の追加: 画像、音声など、テキスト以外のデータ形式も扱えるように拡張します。データ収集と公開におけるコンプライアンス基準は維持します。
社会的なアラインメント: 多様なスイスと多言語の好みをモデル化し、アラインメント目標と評価に反映します。
フィールド評価: ドメイン専門家と一般市民を対象とした構造化調査を実施し、信頼性、ユーザビリティ、言語とセクターを超えた現実世界での影響を評価します。