長文も怖くない！LLMで自動採点精度UP

紹介論文
1. この論文を一言でまとめると
自動採点（AES）における長文の課題
長文に対応するLLMアーキテクチャ
Kaggle ASAP 2.0データセットによる評価
実験結果：長文LLMの性能比較
実用的なAES改善策とモデル選定のヒント

紹介論文

今回紹介する論文はLong Context Automated Essay Scoring with Language Modelsという論文です。

https://arxiv.org/pdf/2509.10417v1.pdf

この論文を一言でまとめると

LLMによる自動採点（AES）の精度を長文で向上させるための手法を解説。XLNet, Longformer, Mambaなど、アーキテクチャを工夫したモデルを比較し、具体的な改善策を提供します。論文を基に、AESの課題と対策、モデル選定のヒントが得られます。

自動採点（AES）における長文の課題

従来の自動採点システム（AES）は、TransformerベースのLLM（Large Language Model）を用いる際に、テキストの入力長に大きな制限がありました。これは、LLMが持つアーキテクチャ上の制約によるもので、高学年の学生が書くような長いエッセイを十分に評価できないという課題を生み出していました。このセクションでは、この入力長制限がAESの精度に与える影響と、その解決の必要性について詳しく解説します。

なぜ長文が問題なのか？

多くのLLMは、一度に処理できるテキストの長さに上限があります。例えば、初期のBERTモデルでは512トークンという制限がありました。しかし、実際のエッセイでは、特に高学年になるほど、このトークン数を超えるものが多く存在します。

この制限に対処するため、従来のAESでは、エッセイのテキストを切り捨てるという手法が用いられてきました。しかし、この方法は、エッセイ全体の文脈や構造を捉える上で深刻な問題を引き起こします。

文脈の喪失と評価精度の低下

テキストを切り捨てるということは、エッセイの一部分しか評価できないということです。エッセイの構成、論理性、首尾一貫性などは、エッセイ全体を通して評価されるべき要素ですが、テキストが切り捨てられてしまうと、これらの要素を正確に評価することが困難になります。

例えば、あるエッセイの導入部分と結論部分が非常に優れていたとしても、その間の本文が長すぎて切り捨てられてしまった場合、エッセイ全体の評価は不当に低くなってしまう可能性があります。

また、エッセイの重要な情報がたまたま切り捨てられてしまった場合、評価の精度はさらに低下します。特に、根拠となるデータや具体的な事例などが切り捨てられてしまうと、議論の説得力を評価することができません。

AESにおける公平性の問題

入力長に制限があるAESでは、短いエッセイの方が有利になる傾向があります。なぜなら、短いエッセイは切り捨てられる部分が少ないため、より多くの情報が評価に反映されるからです。これは、エッセイの長さによって評価が左右されるという不公平性を生み出す可能性があります。

例えば、同じような内容のエッセイでも、冗長な表現が多いエッセイは切り捨てられる部分が多くなり、簡潔にまとめられたエッセイよりも評価が低くなる可能性があります。

長文に対応することの重要性

長文に対応したAESを実現することは、高精度かつ公平なエッセイ評価を行う上で不可欠です。教育現場では、学生が様々な長さのエッセイを書くことが求められます。そのため、どのような長さのエッセイでも正確に評価できるAESシステムが必要とされています。

長文に対応したAESを導入することで、学生はより詳細なフィードバックを受け取ることができ、自身の文章力を向上させることができます。また、教育者はより効率的にエッセイを評価することができ、教育の質の向上に貢献することができます。

次章では、長文に対応するためにアーキテクチャを改良したLLMについて詳しく解説します。

長文に対応するLLMアーキテクチャ

従来のLLM（Large Language Model）は、Transformerアーキテクチャに起因する入力長の制限という課題を抱えていました。しかし、高学年の学生が書くエッセイやレポートは、この制限を超えることが頻繁にあります。そこで、より長いテキストを扱えるように、LLMのアーキテクチャに様々な改良が加えられてきました。このセクションでは、長文に対応するためにアーキテクチャを改良した代表的なLLMを紹介し、それぞれの特徴とAES（Automated Essay Scoring：自動エッセイ採点）への適用について解説します。

XLNet：再帰的注意機構による長文処理

XLNetは、Transformer-XLモデルで導入された再帰的注意機構を利用することで、長文に対応しています。従来のTransformerモデルでは、固定長の文脈しか考慮できませんでしたが、XLNetでは、過去の隠れ層の状態を再利用することで、より長い文脈を捉えることが可能です。特に、エッセイの議論構造を正確に把握する上で、長い文脈が重要な役割を果たす場合に有効です。

XLNetの数式的な特徴として、以下の再帰式が挙げられます。

h^{n+1}_τ = MHA(q^{n+1}_τ, k^{n+1}_{<=τ}, v^{n+1}_{<=τ})

この式は、τ番目のトークンに対するn+1層目の隠れ層の状態が、過去のトークン（<=τ）に対する注意機構の結果として計算されることを示しています。再帰的な定義により、原理上は無限の入力長に対応できますが、実際にはネットワークの深さに依存する制限があります。

Longformer：ローカル注意とグローバル注意の組み合わせ

Longformerは、ローカル注意とグローバル注意を選択的に組み合わせることで、長文に対応しています。ローカル注意は、Transformerと同様に、一定範囲のトークン間の注意を計算しますが、グローバル注意は、特定のトークン（例えば、特別な記号トークン）に対して、すべてのトークンとの注意を計算します。これにより、計算量を削減しながら、長文全体の文脈を捉えることが可能になります。

Longformerのアーキテクチャは、特に以下のような場合に有効です。

エッセイの冒頭と結論など、全体に関わる重要な情報を捉える必要がある場合
特定のキーワードやフレーズが、エッセイ全体に与える影響を評価する必要がある場合

ModernBERT：回転位置埋め込みによる長文対応

ModernBERTは、回転位置埋め込み（RoPE: Rotational Position Embedding）という手法を用いて、文脈長を拡張しています。RoPEは、トークンの位置情報を回転行列で表現することで、トークン間の相対的な位置関係を効率的に捉えることを可能にします。これにより、ModernBERTは、従来のBERTよりも長い文脈を扱えるようになり、より複雑なエッセイの評価に適しています。

ModernBERTでは、まず短い文脈長で学習を行い、その後、回転埋め込みのパラメータを調整することで、長文への対応能力を高めています。この手法は、転移学習の一種であり、計算資源を効率的に活用しながら、高性能なモデルを構築することができます。

Mamba：状態空間モデルによる線形計算量での長文処理

Mambaは、従来のTransformerアーキテクチャとは大きく異なり、状態空間モデル（SSM：State-Space Model）を用いて、長文を効率的に処理します。Transformerの注意機構の計算量は、入力長の二乗に比例しますが、Mambaの計算量は、入力長に比例します。そのため、Mambaは、非常に長い文脈を扱う場合に、Transformerよりも高速に処理できる可能性があります。

Mambaでは、Transformerレイヤーと注意機構を、状態空間モデルの離散化に基づく、より単純なシステムに置き換えています。Mambaブロックは線形複雑性で計算できるため、長い文脈のタスクに適しています。AESにおいては、以下のような利点が期待できます。

計算資源が限られた環境でも、長文のエッセイを効率的に評価できる
非常に長いエッセイやレポートも、全体を考慮した上で評価できる

Llama：Meta社によるオープンソースLLM

Llamaは、Meta社が開発したオープンソースのLLMであり、RoPEと、文脈長を128kに拡張するために使用される手法を組み合わせて使用します。 Transformerアーキテクチャをベースとしていますが、いくつかの改良が加えられており、特に長い文脈を扱う能力が向上しています。

Llamaは、生成モデルであるため、エッセイの評価だけでなく、添削や改善提案など、より高度なタスクにも応用できる可能性があります。ただし、本記事で扱う論文中では、LlamaをAESに特化してファインチューニングした結果を検証しています。

まとめ

本セクションでは、長文に対応するためにアーキテクチャを改良した代表的なLLMを紹介しました。それぞれのモデルは、異なるアプローチで長文処理を実現しており、AESにおいても、その特性に応じた活用が期待されます。次のセクションでは、これらのLLMをKaggle ASAP 2.0データセットを用いて評価し、その性能を比較します。

Kaggle ASAP 2.0データセットによる評価

自動採点（AES）の性能を評価するために、本研究ではKaggleのASAP 2.0データセットを使用しました。このセクションでは、データセットの詳細、評価指標、実験設定について解説します。

データセットの詳細

ASAP 2.0データセットは、長文エッセイの自動採点における課題を克服するために設計された、貴重なリソースです。元々、PERSUADEコーパスを拡張したもので、6年生から10年生の学生が書いたエッセイで構成されています。これらのエッセイは、多岐にわたるプロンプト（課題）に基づいており、学生のライティングスキルを評価するための多様なサンプルを提供します。

多様なプロンプト: データセットには、様々なトピックとライティングスタイルをカバーする8つの異なるプロンプトが含まれています。
グレードレベル: 6年生から10年生までのエッセイが含まれており、異なるグレードレベルのライティングスキルを評価できます。
長文エッセイ: 多くのエッセイは、従来のLLMの入力長制限を超えるため、長文に対応したモデルの性能を評価するのに適しています。

データセットの規模とエッセイの長さに関する情報は、以下の表にまとめられています。

データセットのサイズと長さの特性:

	Train		Test
Grade	Count	Avg. Words	Count	Avg. Words
6	2094	292.2	527	268.3
8	1648	339.9	921	295.9
9	4002	426.1	0
10	9563	385.8	5973	356.4
Total	17307	376.1	7421	342.7

評価指標

本研究では、AESの標準的な評価指標であるQuadratic Weighted Kappa (QWK)を使用しました。QWKは、rater間の合意度を測る指標であり、AESの性能を評価するために広く使用されています。

QWKは、以下の式で定義されます。

κ = 1 - (Σ_ij w_ijO_i,j) / (Σ_ij w_ijE_i,j)

ここで、O_ijは実際のrater間の合意、E_ijは偶然による合意の期待値、w_ijは重みを表します。QWKは、-1から1の範囲を取り、1に近いほど高い合意度を示します。人間のrater間のQWKは0.745であり、これをモデルの性能を評価するための基準として使用します。

実験設定

実験では、様々な長文に対応したLLM（XLNet, Longformer, ModernBERT, Mamba, Llama）をASAP 2.0データセットでfine-tuningし、AESの性能を評価しました。各モデルの学習には、Adam optimizerを使用し、cross-entropy lossを最小化するように学習を行いました。また、学習の際には、開発セットを用いて早期終了（early stopping）を行い、過学習を抑制しました。

Fine-tuning: 各モデルをASAP 2.0データセットでfine-tuningし、AESタスクに特化させました。
Optimizer: Adam optimizerを使用し、学習を最適化しました。
Loss function: Cross-entropy lossを使用し、モデルの予測と実際の評価との誤差を最小化しました。
Early stopping: 開発セットを用いて早期終了を行い、過学習を抑制しました。

次のセクションでは、これらの実験結果を比較し、長文AESにおける各モデルの性能について詳しく分析します。

実験結果：長文LLMの性能比較

長文エッセイの自動採点（AES）において、各種LLMの性能を比較した結果を詳しく見ていきましょう。Kaggle ASAP 2.0データセットを用いて評価した結果、各モデルの得意不得意や、アーキテクチャによる性能差が明らかになりました。

本セクションでは、論文に掲載されているTable 2を元に解説を進めます。

全体的な性能

まず、全体的な性能として、Quadratic Weighted Kappa (QWK)という指標を用いてモデルを評価しました。QWKは、rater間の一致度を測る指標で、1に近いほど性能が高いことを示します。今回の実験では、人間のrater間の一致度が0.745であったのに対し、すべてのモデルがこの値を上回る結果となりました。これは、LLMがAESにおいて十分な性能を発揮できることを示唆しています。

特に、Longformerが0.798と最も高いQWKを記録し、次いでMamba-130mが0.797と高い性能を示しました。従来のモデルであるDeBERTa-BaseやXLNet-Baseもそれぞれ0.790、0.784と優れた性能を示しましたが、LongformerとMambaにはわずかに及ばない結果となりました。

Mambaモデルの卓越性

注目すべきは、Mamba-130mの性能です。パラメータ数が130Mと、他のモデルに比べて比較的小さいにもかかわらず、非常に高いQWKを達成しました。これは、Mambaのアーキテクチャが、長文AESにおいて非常に効率的であることを示唆しています。Mambaは、State Space Model (SSM) をベースにしており、入力長に対する計算量が線形に増加するという特徴があります。このため、長いエッセイを効率的に処理でき、高い性能を発揮できたと考えられます。

Mambaモデルは、Jamba (Lieber et al., 2024)のような関連アーキテクチャとともに、大規模評価アプリケーションの魅力的な代替手段として位置づけられています。

グレード別の性能

次に、グレード別の性能を見ていきましょう。グレード6、8、10のエッセイに対するQWKを比較した結果、LongformerとMambaは、どのグレードにおいても安定した性能を示しました。一方、DeBERTa-BaseやXLNet-Baseは、グレードによって性能にばらつきが見られました。これは、LongformerとMambaが、エッセイの難易度に関わらず、安定した評価ができることを示唆しています。

| モデル | グレード6 | グレード8 | グレード10 |
| :-------------- | :-------- | :-------- | :--------- |
| DeBERTa-Base | 0.696 | 0.659 | 0.800 |
| XLNet-Base | 0.654 | 0.640 | 0.798 |
| Longformer | 0.698 | 0.658 | 0.811 |
| ModernBERT | 0.639 | 0.658 | 0.804 |
| Mamba-130m | 0.674 | 0.640 | 0.812 |
| Llama-3.2-8B | 0.667 | 0.672 | 0.803 |

生成モデル（Llama-3.2-8B）の性能

生成モデルであるLlama-3.2-8Bは、8Bという大きなパラメータ数を持つにもかかわらず、encoderベースのモデルと比較して、パフォーマンスが向上しませんでした。この結果は、大規模なパラメータ数や洗練された学習方法（instruction tuningやreinforcement learningなど）が、必ずしもAESの性能向上に繋がらないことを示唆しています。論文では、生成モデルには、フィードバックを提供する機能があることに触れています。

考察

今回の実験結果から、長文AESにおいては、LongformerやMambaのような、長文に対応したアーキテクチャを持つモデルが有効であることが示されました。特に、Mambaは、パラメータ数が小さいにもかかわらず高い性能を発揮し、その効率性が際立ちました。

これらのモデルは、ROPEベースの位置埋め込みや選択的状態空間などのアーキテクチャ革新を使用しており、長い学生エッセイの処理に適しています。最適化された実装により、Transformerベースのモデルと比較して2〜8倍の速度向上が達成される可能性があります。

長文AESにおいては、モデルの選択だけでなく、データセットの特性や評価指標の選択も重要です。今回の実験結果を踏まえ、読者の皆様が自身のAESシステムを改善するためのヒントとなれば幸いです。

実用的なAES改善策とモデル選定のヒント

今回の実験結果を踏まえ、読者の皆様がご自身のAES（自動エッセイ採点）システムを改善するための具体的な対策を提案します。長文への対応、モデル選定のポイント、そして今後の展望について、以下にまとめます。

長文への対応：切り捨てからの脱却

従来のAESでは、LLMの入力長制限のために、エッセイを途中で切り捨てざるを得ない状況がありました。しかし、今回の実験で示したように、長文に対応したLLMを用いることで、この問題を克服し、より正確な評価が可能になります。具体的な対策としては、以下の点が挙げられます。

* **LongformerやMambaなどの採用:** これらのモデルは、アーキテクチャレベルで長文に対応しており、切り捨てによる情報損失を防ぎます。
* **RoPE（Rotational Position Embedding）の活用:** ModernBERTやLlamaなどのモデルで使用されているRoPEは、長文の文脈を効果的に捉えるのに役立ちます。
* **テキスト分割と統合:** どうしても入力長を超える場合は、テキストを分割して評価し、後で結果を統合する方法も有効です。

モデル選定のポイント：アーキテクチャと計算資源のバランス

最適なモデルを選ぶ際には、精度だけでなく、計算資源とのバランスも考慮する必要があります。今回の実験では、Mamba-130mが比較的小さなモデルサイズでありながら、高い性能を発揮しました。モデル選定のポイントは以下の通りです。

* **アーキテクチャの確認:** 長文に対応したアーキテクチャ（例：Longformerのローカル・グローバル注意、MambaのSSM）を持つモデルを選びましょう。
* **計算コストの考慮:** 大規模なモデルほど高い精度が期待できますが、計算コストも高くなります。Mambaのように、計算効率に優れたモデルも検討しましょう。
* **データセットとの相性:** 評価対象のエッセイの特性（例：平均文字数、文体）と、モデルの学習データとの相性を考慮しましょう。

今後の展望：より賢く、より効率的なAESへ

AESの分野は、LLMの進化とともに、ますます発展していくことが期待されます。今後は、以下のような方向性が考えられます。

* **より高度な文脈理解:** LLMがエッセイの文脈をより深く理解することで、評価の精度がさらに向上するでしょう。
* **フィードバック機能の強化:** 生成モデルを活用し、学生に対して建設的なフィードバックを提供する機能が重要になります。
* **説明可能なAI（XAI）の導入:** 評価根拠を明確に示すことで、AESの透明性と信頼性を高めることが求められます。
* **特定分野への特化:** 特定の教科やテーマに特化したAESシステムを開発することで、より専門的な評価が可能になります。

今回の記事が、読者の皆様がより効果的なAESシステムを構築し、教育現場での活用を推進するための一助となれば幸いです。