葡LLM高品質データセット構築法

紹介論文
1. この論文を一言でまとめると
LLMにおけるデータセット品質の重要性
1. データセット構築の課題
ClassiCC-PT: ポルトガル語データセット構築
データ選別戦略：ルールベース vs. ニューラルネットワーク
継続事前学習の効果検証
データセット比較：ClassiCC-PTの優位性

紹介論文

今回紹介する論文はBuilding High-Quality Datasets for Portuguese LLMs: From Common Crawl
Snapshots to Industrial-Grade Corporaという論文です。

https://arxiv.org/pdf/2509.08824v1.pdf

この論文を一言でまとめると

大規模言語モデル(LLM)の性能は学習データに大きく依存。本記事では、ポルトガル語LLM構築における高品質データセットの作成方法を解説。Common Crawlから産業レベルのコーパスまで、データ選別・前処理戦略を徹底解剖し、実用的な知見を提供します。

LLMにおけるデータセット品質の重要性

LLM（大規模言語モデル）の性能を飛躍的に向上させる鍵、それはデータセットの品質です。モデルの学習データがいかに良質であるか、その構成がいかに適切であるかが、LLMの能力を大きく左右します。

しかし、LLM研究の中心は英語。他の言語、特にポルトガル語においては、効果的な学習データをどう構築すれば良いのか、その知見はまだ十分ではありません。

ポルトガル語は、世界で5番目に話者が多い言語です。

にもかかわらず、ポルトガル語のLLM開発は遅れており、大規模な学習データが不足しているのが現状です。

なぜ、データセットの品質が重要なのでしょうか？

それは、学習データがLLMの知識の源泉だからです。偏ったデータ、ノイズの多いデータで学習したLLMは、性能が頭打ちになるだけでなく、不適切な知識や有害な情報を学習してしまう可能性もあります。

本セクションでは、LLMにおけるデータセット品質の重要性を改めて確認し、ポルトガル語LLM開発における課題を明確にしていきます。

データセット構築の課題

ポルトガル語LLM開発には、以下のような課題があります。

* データ不足：英語に比べ、利用可能なデータ量が圧倒的に少ない。
* 品質のばらつき：Web上のデータは品質が一定でなく、ノイズが多い。
* 言語特性への対応：ポルトガル語特有の表現や文法に対応する必要がある。

多言語対応のデータセット（mC4など）も存在しますが、言語ごとのデータ量が限られていたり、品質にばらつきがあったりという問題があります。

これらの課題を克服し、高品質なポルトガル語LLMを開発するためには、言語特性に合わせたデータ収集・選別・前処理が不可欠です。

本記事では、Common Crawlという大規模なWebデータを利用し、産業レベルの品質を持つポルトガル語のデータセットを構築する手法について解説します。この手法は、他の言語にも応用可能であり、多言語LLM開発の発展に貢献できると考えています。

ClassiCC-PT: ポルトガル語データセット構築

大規模言語モデル（LLM）の性能は、学習に使用するデータセットの質に大きく左右されます。しかし、英語に比べてポルトガル語のようなリソースが限られた言語では、高品質なデータセットの構築が課題となります。本セクションでは、Common Crawlから120Bトークンという大規模な、高品質ポルトガル語データセットClassiCC-PTを構築するプロセスを詳しく解説します。データ選別から前処理まで、具体的な手法を見ていきましょう。

データ収集：Common CrawlからのWebページ抽出

ClassiCC-PTの構築は、Common Crawlという巨大なWebアーカイブから始まります。Common Crawlは定期的にWeb全体をクロールし、そのスナップショットを公開しています。このスナップショットから、ポルトガル語のWebページを効率的に抽出するために、以下の手順を踏みます。

メタデータによるフィルタリング: Common Crawlが提供する各ドキュメントのメタデータを利用します。このメタデータには、CLD2という言語識別ツールによって推定された言語情報が含まれています。これを利用して、言語リストにポルトガル語が含まれるページのみを抽出します。
WARCファイルからのHTML抽出: 抽出されたページのWARC（Web ARChive）ファイルを取得し、生のHTMLコンテンツを抽出します。

この段階で、まだノイズが多く、不要な情報も含まれたHTMLデータが得られます。

データ前処理：HTMLから高品質テキストへ

抽出されたHTMLデータは、そのままではLLMの学習には適していません。そこで、以下のステップを経て、高品質なテキストデータへと変換します。

テキスト抽出: HTMLからテキストを抽出する方法として、以下の2つを比較検討しました。
- BeautifulSoupライブラリ: HTMLタグを取り除き、すべてのテキストコンテンツを抽出するシンプルな方法です。
- Trafilaturaライブラリ: コンテンツクリーニングルールを適用し、ノイズや不要な情報を除去しながらテキストを抽出する方法です。
実験の結果、Trafilaturaを使用する方が、より少ないトークン数で高品質なテキストを抽出できることがわかりました。具体的には、BeautifulSoupでは約1000億トークン/クロールだったのに対し、Trafilaturaでは約450億トークン/クロールに削減されました。
重複排除: 重複したデータは学習の効率を下げ、モデルの性能を損なう可能性があります。そこで、MinHashという手法を用いて、各クロール内のドキュメントを重複排除しました。異なるクロール間での重複排除も検討しましたが、今回の実験では、クロール内での重複排除のみに留めました。これは、異なるクロール間での重複排除を行うと、主に高エントロピーなノイズページが保持されてしまい、性能が低下する可能性があるためです。この処理によって、平均して約40%のWebページが削除されました。
ルールベースのページ選別: Webページの内容を精査し、品質を向上させるために、ルールベースの選別を適用します。具体的には、MassiveWebとC4という既存の研究で使用されているヒューリスティックルールを参考にしました。
ニューラルネットワークベースの選別: さらに、教育コンテンツ、STEM（科学・技術・工学・数学）関連コンテンツ、有害コンテンツを識別するためのBERTベースの分類器を開発しました。これらの分類器を用いて、データセットをさらにフィルタリングすることで、より高品質なデータセットの構築を目指します。

ClassiCC-PTの完成：大規模高品質コーパスの実現

これらのステップを経て、最終的に1260億トークンという大規模なポルトガル語データセットClassiCC-PTが完成しました。この規模は、他の主要なオープンソースポルトガル語コーパスであるmC4（1600億トークン）やClueWeb22-A（約1000億トークン）に匹敵します。ClassiCC-PTは、LLMの研究開発において貴重なリソースとなることが期待されます。

ClassiCC-PTは、Common Crawlという公開データセットを基に構築されているため、誰でも利用可能です。このデータセットを活用することで、低コストで高品質なポルトガル語LLMを開発することができます。

データ選別戦略：ルールベース vs. ニューラルネットワーク

データセットの品質は、LLMの性能を大きく左右します。そのため、データセットを構築する際には、ノイズや不要な情報を取り除き、モデルが学習すべき重要な情報を効果的に抽出するためのデータ選別が不可欠です。本セクションでは、データ選別の代表的な戦略であるルールベースとニューラルネットワークに基づく手法を比較検討し、それぞれのメリット・デメリットを解説します。

ルールベース選別：シンプルかつ効率的な手法

ルールベース選別は、あらかじめ定義されたルールに基づいてデータを選別する手法です。具体的には、ドキュメントの文字数、句読点の割合、ストップワードの有無といった特定の属性を分析し、ルールに合致しないデータを削除します。例えば、文字数が極端に少ないドキュメントや、特定のキーワードを含むドキュメントを除外する、といった処理を行います。

ルールベース選別のメリット

効率性：ルールがシンプルであるため、計算コストが低く、大規模なデータセットにも適用しやすいのが特徴です。
実装の容易さ：ルールを記述するだけで実装できるため、プログラミングの専門知識がなくても比較的簡単に導入できます。

ルールベース選別のデメリット

柔軟性の欠如：ルールは固定されているため、データの種類や特徴の変化に柔軟に対応できません。
内容の理解不足：ドキュメントの内容を理解せずに字句的な特徴のみで判断するため、有用な情報を含むドキュメントを誤って除外する可能性があります。
言語依存性：ルールは言語に依存するため、多言語データセットに適用するには、言語ごとにルールを調整する必要があります。

ニューラルネットワーク選別：高度な内容理解に基づく手法

ニューラルネットワーク選別は、機械学習モデルを用いてデータを選別する手法です。例えば、教育コンテンツ、STEM（科学・技術・工学・数学）関連コンテンツ、有害コンテンツといった特定の種類のコンテンツを識別するために、テキスト分類モデルを使用します。モデルは、大量の教師データを用いて学習し、ドキュメントの内容を理解した上で、選別を行います。

ニューラルネットワーク選別のメリット

高度な内容理解：機械学習モデルは、ドキュメントの内容を理解した上で選別を行うため、ルールベースでは判断できない複雑な情報も考慮できます。
柔軟性：学習データに基づいて選別基準を調整できるため、データの種類や特徴の変化に柔軟に対応できます。

ニューラルネットワーク選別のデメリット

計算コスト：機械学習モデルの学習と推論には、計算資源が必要です。
教師データの必要性：モデルの学習には、大量の教師データ（ラベル付きデータ）が必要です。教師データの準備には、人的コストがかかります。
汎化性能の問題：学習データに偏りがあると、未知のデータに対して十分な性能を発揮できない場合があります。

ClassiCC-PTにおける選別戦略

論文「Building High-Quality Datasets for Portuguese LLMs」では、ClassiCC-PTの構築において、ルールベースとニューラルネットワーク選別の両方を活用しています。まず、ルールベース選別で低品質なドキュメントを削除し、次にニューラルネットワーク選別で特定の種類のコンテンツを持つドキュメントを選択することで、データセットの品質向上を図っています。

特に、教育コンテンツに特化したデータセットFineWebでの成果を参考に、BERTモデルをベースとしたカスタム分類器を開発し、ポルトガル語の教育、STEM、有害コンテンツを識別しています。これにより、より質の高いデータセット構築を実現しています。

まとめ

データ選別戦略の選択は、データセットの特性、利用可能なリソース、そして最終的なLLMの目的に大きく依存します。ルールベース選別は、そのシンプルさと効率性から、大規模データセットの初期フィルタリングに適しています。一方、ニューラルネットワーク選別は、より高度な内容理解と柔軟性を提供し、特定の種類のコンテンツに焦点を当てる場合に有効です。ClassiCC-PTの事例が示すように、両方の戦略を組み合わせることで、それぞれの利点を生かし、高品質なデータセットを構築することが可能です。

継続事前学習の効果検証

大規模言語モデル（LLM）をゼロから学習させるには、膨大な計算リソースが必要です。そこで注目されるのが、継続事前学習というアプローチです。これは、既存のモデルをベースに、特定の言語や分野に特化したデータセットで追加学習を行うことで、効率的に性能を向上させる手法です。

継続事前学習とは？

継続事前学習は、すでに学習済みのモデルの重みを初期値として、新たなデータセットで追加学習を行うことで、モデルを特定のタスクや言語に適応させる手法です。これにより、既存の知識を保持しつつ、新たな情報を効率的に学習できます。

本研究における実験設定

本研究では、英語で1兆トークンを学習したTinyLlamaモデルをベースに、ClassiCC-PTデータセットを用いてポルトガル語の継続事前学習を行いました。そして、Poetaベンチマークを用いて、学習済みモデルの性能を評価しました。

実験結果：データセットの質が性能を左右する

実験の結果、ClassiCC-PTで継続事前学習を行ったTinyLlamaモデルは、Poetaベンチマークにおいて優れた性能を発揮しました。この結果は、継続事前学習においてデータセットの質が非常に重要であることを示唆しています。つまり、ターゲット言語に特化した高品質なデータセットを使用することで、モデルの性能を大幅に向上させることが可能です。

継続事前学習は、特にリソースが限られている環境において、高性能なモデルを開発するための有効な手段となります。

専門家の見解：Sabiáモデルの事例

先行研究であるSabiáモデルも、ポルトガル語の継続事前学習が効果的であることを示しています。これらの結果は、継続事前学習が、英語以外の言語で高性能モデルを効率的に開発するための有力な戦略であることを裏付けています。

継続事前学習の実践的なTips

ターゲット言語に特化した高品質なデータセットを使用する。
既存のモデルをベースにすることで、学習時間を短縮する。
ベンチマークテストを用いて、モデルの性能を定期的に評価する。

まとめ

本研究の結果から、英語で学習したモデルをポルトガル語で継続事前学習させることで、高い性能を達成できることが示されました。データセットの質がモデル性能に与える影響は大きく、ターゲット言語に特化した高品質なデータセットの重要性が改めて明らかになりました。継続事前学習は、リソースが限られた環境でも高性能なLLMを開発するための有効な手段と言えるでしょう。

データセット比較：ClassiCC-PTの優位性

ClassiCC-PTは、大規模なポルトガル語LLMを構築するための高品質なデータセットです。このセクションでは、ClassiCC-PTの性能を他の主要なポルトガル語データセットであるmC4、ClueWebと比較し、その優位性を示します。重要なのは、手軽な手法でも産業レベルに匹敵する高品質なデータセット構築が可能である点です。

データセットの特性

それぞれのデータセットの特性を比較してみましょう。

ClassiCC-PT
- 1200億トークン
- Common Crawlから構築
- 言語固有のフィルタリングパイプラインを使用
mC4
- 1600億トークン
- 多言語コーパス
- 言語ごとの表現が限られている
ClueWeb
- 約1000億トークン
- 産業レベルの処理パイプラインを使用

実験結果：ClassiCC-PTがmC4を凌駕

実験の結果、ClassiCC-PTとClueWebは、mC4よりも優れた性能を発揮しました。特に注目すべきは、ClassiCC-PTがClueWebに匹敵する性能を達成した点です。これは、大規模なインフラを持つ組織でなくても、適切なデータ選別と前処理を行うことで、高品質なデータセットを構築できることを示唆しています。