Seq2Seq徹底解説:ETTINで探るエンコーダとデコーダ

論文要約

2025.07.17

紹介論文
1. この論文を一言でまとめると
Seq2Seqモデルとは？基礎と大規模言語モデル（LLM）の現状
論文「Seq vs Seq: An Open Suite of Paired Encoders and Decoders」の概要と貢献
ETTINスイートの実験設定：データセット、アーキテクチャ、学習レシピ
実験結果の分析：エンコーダvsデコーダ、クロス目的学習、ジェンダーバイアス
まとめと今後の展望：Seq2Seqモデルの可能性を拓く
1. 今後の研究への貢献
2. 読者へのメッセージ

紹介論文

今回紹介する論文はSeq vs Seq: An Open Suite of Paired Encoders and Decodersという論文です。

https://arxiv.org/pdf/2507.11412v1.pdf

この論文を一言でまとめると

本記事では、Seq vs Seq: An Open Suite of Paired Encoders and Decodersという論文について解説します。ETTINスイートを用いたエンコーダ・デコーダモデルの比較実験の結果から、両モデルの特性と使い分けについて考察します。大規模言語モデル開発の新たな視点を提供します。

Seq2Seqモデルとは？基礎と大規模言語モデル（LLM）の現状

このセクションでは、Seq2Seqモデルの基本と、エンコーダ・デコーダモデルの重要性について解説します。近年、自然言語処理の分野を席巻している大規模言語モデル（LLM）の現状と課題についてもご紹介します。

Seq2Seqモデルの基本

Seq2Seqモデル（Sequence-to-Sequenceモデル）は、ある系列データを別の系列データに変換するタスクに使用されるモデルです。代表的な応用例としては、機械翻訳、テキスト要約、質問応答などが挙げられます。

Seq2Seqモデルの基本的な構造は、エンコーダとデコーダという2つの主要なコンポーネントで構成されています。

エンコーダ：入力系列（例えば、翻訳前の文章）を固定長のベクトル（文脈ベクトル）に変換します。
デコーダ：文脈ベクトルから出力系列（例えば、翻訳後の文章）を生成します。

初期のSeq2Seqモデルでは、主にLSTMやGRUなどのリカレントニューラルネットワーク（RNN）が使用されていましたが、近年ではTransformerアーキテクチャが主流となっています。

エンコーダ・デコーダモデルの重要性

エンコーダ・デコーダ構造は、系列変換タスクにおいて、その柔軟性と高い性能から非常に重要な役割を果たしています。文脈ベクトルを介することで、入力と出力の系列長が異なる場合にも対応できる点が大きな特徴です。

また、アテンション機構の導入により、入力系列の重要な部分に焦点を当てた学習が可能になり、翻訳精度などが飛躍的に向上しました。

大規模言語モデル（LLM）の現状と課題

近年、Transformerアーキテクチャに基づく大規模言語モデル（LLM）が、自然言語処理の分野を席巻しています。LLMは、膨大なテキストデータで事前学習を行うことで、多様なタスクで人間を凌駕するほどの高い性能を発揮するようになりました。

しかし、LLMには以下のような課題も存在します。

計算コスト：モデルサイズが巨大であるため、学習や推論に莫大な計算資源が必要となります。
データの偏り：学習データに偏りが存在する場合、モデルの出力にもバイアスが現れる可能性があります。
例えば、特定の単語に対して性別や人種に関するネガティブなステレオタイプを反映した出力をしてしまうことがあります。
解釈性：モデルの内部動作が複雑であるため、なぜそのような出力が得られたのかを理解することが難しいという問題があります。

また、LLMはdecoder-onlyのモデルが主流ですが、encoder-onlyモデルもclassificationやretrievalタスクで重要な役割を担っています。

例えば、文章の感情分析や、大量のドキュメントから特定の情報を見つけ出すタスクなどが挙げられます。

次項では、これらの課題に立ち向かい、encoder-onlyモデルとdecoder-onlyモデルの性能を公平に比較することを目的とした論文「Seq vs Seq: An Open Suite of Paired Encoders and Decoders」について解説します。

論文「Seq vs Seq: An Open Suite of Paired Encoders and Decoders」の概要と貢献

このセクションでは、論文「Seq vs Seq: An Open Suite of Paired Encoders and Decoders」の概要と、その貢献について詳しく解説します。本論文は、自然言語処理（NLP）分野における重要なテーマであるエンコーダモデルとデコーダモデルの比較に、新たな視点と厳密な実験的根拠を提供するものです。特に、ETTINスイートという独自のモデル群を構築し、詳細な分析を行った点が画期的です。

論文の概要：エンコーダとデコーダの公平な比較

本論文の中心的な目的は、エンコーダモデルとデコーダモデルの性能を、公平な条件下で比較することです。近年、大規模言語モデル（LLM）の分野では、デコーダモデルが主流となっていますが、エンコーダモデルも依然として重要な役割を担っています。しかし、既存の研究では、モデルのパラメータ数や学習データ、学習方法などが異なることが多く、両モデルの性能を正確に比較することが困難でした。

そこで、本論文では、パラメータ数、学習データ、学習方法を厳密に揃えたETTINスイートと呼ばれるモデル群を構築し、両モデルの特性を詳細に分析しています。ETTINスイートは、1700万から10億のパラメータを持つエンコーダモデルとデコーダモデルのペアで構成されており、最大2兆トークンで学習されています。これにより、モデルアーキテクチャの違いのみに焦点を当てた、より厳密な比較が可能となっています。

ETTINスイート：公平な比較のための基盤

ETTINスイートの最大の特徴は、すべてのモデルが同じデータ、同じアーキテクチャ、同じ学習レシピでトレーニングされている点です。これにより、モデルアーキテクチャの違いによる性能差を正確に評価できます。ETTINスイートは、エンコーダモデルとしてModernBERT、デコーダモデルとしてLLaMA 3.2やSmolLM2といった既存の最先端モデルを上回る性能を達成しています。これは、ETTINスイートが単なる比較のためのツールではなく、それ自体が優れた性能を持つモデル群であることを示しています。

ETTINという名称は、北欧神話に登場する二つの頭を持つ巨人から取られています。これは、エンコーダとデコーダという2つの異なるモデルを象徴しています。

エンコーダ/デコーダモデルの比較実験：タスクごとの得意分野

論文では、ETTINスイートを用いて、様々なNLPタスクにおけるエンコーダモデルとデコーダモデルの性能を比較しています。その結果、エンコーダモデルはclassificationやretrievalタスクで、デコーダモデルはgenerativeタスクでそれぞれ優れていることが示されました。これは、それぞれのモデルアーキテクチャが持つ特性に起因すると考えられます。エンコーダモデルは、入力系列全体を理解し、特徴を抽出することに優れているため、分類や検索といったタスクに適しています。一方、デコーダモデルは、与えられた文脈に基づいて新しいテキストを生成することに優れているため、テキスト生成タスクに適しています。

また、論文では、デコーダモデルをエンコーダタスクに、エンコーダモデルをデコーダタスクに転用するcross-objective trainingの有効性についても検証しています。その結果、cross-objective trainingは、期待されるほどの効果が得られないことが示されました。これは、モデルアーキテクチャが特定のタスクに最適化されているため、単純な転用では性能が向上しないことを示唆しています。

既存研究との違い：より厳密な比較とコミュニティへの貢献

既存研究では、パラメータ数や学習データが異なるモデル同士を比較することが多かったため、モデルアーキテクチャの違いによる性能差を正確に評価することが困難でした。本研究では、ETTINスイートを用いることで、より厳密な比較を可能にしています。また、ModernBERTのオープンデータでの再現を初めて実現し、コミュニティへの貢献を目指している点も、本研究の重要な特徴です。

本研究の意義：モデル選択の指針と今後の研究の促進

本研究は、エンコーダモデルとデコーダモデルの特性を理解することで、タスクに応じた適切なモデル選択を支援します。また、cross-objective trainingの有効性に関する知見を提供し、モデルの転用に関する議論に貢献します。さらに、ETTINスイートを公開することで、今後の研究の発展を促進することが期待されます。本論文は、自然言語処理の研究者やエンジニアにとって、非常に有益な情報を提供するものであり、今後のLLM開発における新たな視点を提供するものと言えるでしょう。

本論文の公開により、エンコーダとデコーダモデルの比較研究がさらに進展し、よりタスクに適したモデルの開発や、モデルの転用技術の向上が期待されます。

ETTINスイートの実験設定：データセット、アーキテクチャ、学習レシピ

このセクションでは、ETTINスイートの実験設定について詳しく解説します。ETTINスイートは、エンコーダとデコーダの性能を公平に比較するために、データセット、アーキテクチャ、学習レシピを厳密に管理して構築されています。ここでは、ModernBERTの再現、データセットの選定、モデル構造、学習方法について具体的に説明します。

ModernBERTの再現

ETTINスイートでは、エンコーダモデルの強力なベースラインとして、ModernBERTの再現を目指しました。ModernBERTは高い性能を持つエンコーダモデルですが、学習データが公開されていないため、オープンデータセットを用いて学習レシピを再現する必要があります。

ModernBERTの再現にあたり、以下の点を重視しました。

学習データの選定: ModernBERTの学習データに近い特性を持つオープンデータセットを選定する。
学習パラメータの調整: ModernBERTの論文に記載されている学習パラメータを参考に、最適なパラメータを探索する。
評価方法の統一: ModernBERTと同じ評価方法を用いて、再現度を評価する。

データセットの選定

ETTINスイートの学習には、decoder-onlyモデルの学習によく用いられるOLMoのデータセットと、Dolma v1.7のキュレーションされたソースを組み合わせました。具体的には、DCLM（Li et al., 2024）とDolma v1.7（Soldaini et al., 2024）を組み合わせることで、多様なテキストデータを効率的に学習できると考えました。

また、OLMo 2の論文（OLMo et al., 2025）で記述されている、フィルタリングされたDCLMと高品質のソースをdecay phaseで使用するアプローチを採用しました。これにより、学習の後半段階でより高品質なデータに集中することで、モデルの性能向上を目指しました。

データセットの選定におけるポイント

データセットの規模
データセットの多様性
データセットの品質
学習タスクとの適合性

さらに、学習データだけでなく、モデルが見たデータのバッチ順序も提供することで、将来の研究者がモデルの学習プロセスを詳細に分析できるようにしました。これは、モデルの挙動を理解し、改善するための重要な情報となります。

モデル構造

ETTINスイートでは、ModernBERTのアーキテクチャを参考に、様々なサイズのモデルを構築しました。ModernBERTには2つのサイズしかないため、より小さいモデルと大きいモデルのために新しい形状を開発する必要がありました。そこで、MobileLLM（Liu et al., 2024）のデザインに従い、深くて薄いモデルを目指しました。これは、パラメータ効率の高いモデルを構築するための一般的なアプローチです。

1Bモデルについては、レイヤー数を同じに保ちつつ、モデルをよりワイドにしました。これにより、モデルの表現能力を高めることを目指しました。モデルのパラメータサイズはほぼ2倍ずつ増加させ、一般的なエンコーダサイズに合わせました（例：17M、32M、68M、150M、400M、1B）。

各モデルの詳細な構造は、論文のTable 1に記載されています。モデルのサイズと性能の関係を分析することで、最適なモデルサイズを決定するための知見が得られます。

学習レシピ

ETTINスイートでは、encoder-onlyモデルとdecoder-onlyモデルの両方に対して、オープンデータモデルで記述された一般的なプロセスを使用しました。ただし、encoderアーキテクチャ（マスキング比率など）に合わせていくつかの変更を加えています。具体的には、以下の3つの一般的なフェーズを使用しました。

Base Pre-training: ウォームアップと安定化の段階で、多様なデータソースを用いて一般的な言語能力を学習します。
Mid-Training/Context Extension: データセットの品質を向上させ、RoPE（Su et al., 2024）を調整して長文に対応します。
Decay: より高品質なデータに集中し、学習率を徐々に低下させます。

trapezoidal learning rate schedulerを使用し、一般的なハイパーパラメータを付録Cに、サイズ依存のハイパーパラメータをTable 1に示しました。encoderモデルとdecoderモデルの唯一の違いは、目的関数（encoderはmasked language modeling (MLM)、decoderはcausal language modeling (CLM)）とattentionパターン（decoderはcausal、encoderはbidirectional）でした。

Masked Language Modeling (MLM)

入力テキストの一部の単語をマスクし、モデルにマスクされた単語を予測させるタスクです。エンコーダモデルの学習によく用いられます。

Causal Language Modeling (CLM)

テキストの次の単語を予測するタスクです。デコーダモデルの学習によく用いられます。

ETTINスイートの実験設定は、エンコーダとデコーダの性能を公平に比較するための厳密な管理に基づいて構築されています。この詳細な設定により、両モデルの特性を理解し、タスクに応じた適切なモデル選択を支援するための貴重な知見が得られました。

実験結果の分析：エンコーダvsデコーダ、クロス目的学習、ジェンダーバイアス

本セクションでは、論文「Seq vs Seq: An Open Suite of Paired Encoders and Decoders」の実験結果から得られた重要な洞察を解説します。ETTINスイートを用いた詳細な分析を通じて、エンコーダとデコーダの性能比較、クロス目的学習の効果、ジェンダーバイアスに関するケーススタディについて考察し、今後の研究の方向性を示唆します。

エンコーダとデコーダの性能比較：得意分野の違い

実験結果は、エンコーダとデコーダがそれぞれ異なるタスクで優れた性能を発揮することを示しています。具体的には、エンコーダはclassification（分類）とretrieval（検索）タスク、デコーダはgenerative（生成）タスクにおいて高い性能を発揮します。この違いは、モデルのアーキテクチャと学習方法に起因すると考えられます。

たとえば、MNLI（自然言語推論）のclassificationタスクでは、エンコーダモデルがデコーダモデルを明確に上回る結果となりました。一方、テキスト生成タスクにおいては、デコーダモデルがより自然で流暢な文章を生成する傾向が見られました。

補足情報：MNLIタスクは、与えられた2つの文の関係（含意、矛盾、中立）を判定するタスクです。

クロス目的学習の効果：転用の難しさ

近年、デコーダモデルをclassificationタスクに、エンコーダモデルをテキスト生成タスクに転用するクロス目的学習が注目されています。しかし、本研究の結果は、クロス目的学習が期待されるほどの効果をもたらさないことを示唆しています。

例えば、デコーダモデルをMLM（masked language modeling）で継続的に学習させ、classificationタスクに転用した場合、元のエンコーダモデルの性能を上回ることはできませんでした。この結果は、単に学習目的を反転させるだけでは、モデルのアーキテクチャに起因する性能差を埋められないことを示唆しています。

補足情報：MLMは、文中のいくつかの単語をマスクし、それを予測するタスクです。

ジェンダーバイアスに関するケーススタディ：表現の偏り

ETTINスイートのオープンな事前学習データを利用して、学習目的がジェンダー表現に与える影響を分析しました。WinoGenderベンチマーク（Rudinger et al., 2018）の

まとめと今後の展望：Seq2Seqモデルの可能性を拓く

本研究では、ETTINスイートを用いてエンコーダモデルとデコーダモデルの性能を詳細に比較しました。その結果、MLM（Masked Language Modeling）とCLM（Causal Language Modeling）という学習目的がそれぞれ異なる強みを持ち、MLMは分類や検索タスク、CLMは生成タスクに適していることが改めて確認されました。また、単に逆の目的で事前学習を継続するだけでは、アーキテクチャの違いによる性能差を埋められないことも示されました。

今後の研究への貢献

ETTINスイートは、モデルの学習プロセスやバイアスを分析するための貴重なリソースとして、今後の研究に大きく貢献することが期待されます。特に、本研究で明らかになったエンコーダモデルとデコーダモデルの使い分けに関する知見は、タスクに応じた最適なモデル選択を支援し、より高度な自然言語処理技術の開発を加速させるでしょう。

読者へのメッセージ

Seq2Seqモデルは、自然言語処理において不可欠な存在であり、その可能性は今後も広がっていくでしょう。本記事で紹介したETTINスイートや研究結果を参考に、読者の皆様がそれぞれのタスクに最適なモデルを選択し、自然言語処理のフロンティアを切り拓いていくことを願っています。より詳しい情報や実験の詳細については、論文やGitHubリポジトリ（https://github.com/JHU-CLSP/ettin-encoder-vs-decoder）をご覧ください。