中国人憎悪表現を高精度検出！SRAG-MAV解説

紹介論文
1. この論文を一言でまとめると
はじめに：憎悪表現認識の現状と課題
SRAG-MAVフレームワークの詳細解説
各要素技術の詳細：タスク再構成、自己検索拡張生成、マルチラウンド累積投票
実験設定と評価指標：STATE ToxiCNデータセットでの検証
実験結果：ベースラインモデルを大幅に上回る性能
アブレーションスタディ：各要素技術の貢献度分析

紹介論文

今回紹介する論文はSystem Report for CCL25-Eval Task 10: SRAG-MAV for Fine-Grained Chinese
Hate Speech Recognitionという論文です。

https://arxiv.org/pdf/2507.18580v1.pdf

この論文を一言でまとめると

本記事では、中国人に対する憎悪表現の検出において、最先端のSRAG-MAVフレームワークを紹介します。タスク再構成、自己検索拡張生成、マルチラウンド累積投票という3つの革新的な技術を統合し、その有効性を検証します。実験結果から、既存手法を大幅に上回る性能を発揮することが示されました。

はじめに：憎悪表現認識の現状と課題

ソーシャルメディアの隆盛とともに、人種、出身地、性別などを標的とした悪質なコンテンツ、すなわち憎悪表現（ヘイトスピーチ）の拡散が深刻化しています。これは個人や社会に多大な損害をもたらすため、対策が急務となっています。

こうした状況を受け、自然言語処理（NLP）の分野では、憎悪表現の自動検出技術が重要な研究テーマとなっています。憎悪表現を効果的に検出し、その負の影響を抑制するための取り組みが、世界中で活発に進められています。また、検出モデルの公平性を確保し、潜在的な偏りを排除することも、技術の実用化において不可欠な要素です。

従来の憎悪表現検出手法は、テキストを「憎悪的」または「非憎悪的」の二種類に分類するものが主流でした。しかし、これらの手法では、憎悪表現の複雑な内部構造を捉えきれず、その結果、検出精度が低いという課題がありました。また、検出結果の解釈が難しく、その後の対策に繋げにくいという問題点も指摘されています。

そこで近年注目されているのが、Fine-Grained Chinese Hate Speech Recognition (FGCHSR)です。FGCHSRは、従来の二項分類とは異なり、憎悪表現に含まれる具体的なターゲットや種類といった構造化された情報を抽出します。これにより、憎悪表現の全体像をより深く理解し、より効果的な対策を講じることが可能になります。

本記事では、CCL25-Eval Task 10という課題に取り組み、中国人に対する憎悪表現を高精度に識別する新しい手法、SRAG-MAVを紹介します。この課題は、中国のソーシャルメディアのテキストから、(ターゲット、議論、ターゲットグループ、憎悪的かどうか)の四つ組を抽出することを目的としています。しかし、中国語特有の表現の曖昧さや、文脈に依存する性質、高品質なアノテーションデータの不足などから、非常に難易度の高いタスクとなっています。

本研究では、タスク再構成 (TR)、自己検索拡張生成 (SRAG)、そしてマルチラウンド累積投票 (MAV)という３つの革新的な技術を組み合わせることで、この課題を克服しました。これらの技術を組み合わせることで、既存の手法を大幅に上回る性能を実現しています。本記事では、SRAG-MAVの仕組みと、その有効性について詳しく解説します。

SRAG-MAVフレームワークの詳細解説

本セクションでは、CCL25-Eval Task 10で提案されたSRAG-MAVフレームワークのアーキテクチャを詳細に解説します。このフレームワークは、中国人に対する憎悪表現（ヘイトスピーチ）を高精度に識別するために、3つの主要な技術を統合しています。それは、タスク再構成(TR)、自己検索拡張生成(SRAG)、そしてマルチラウンド累積投票(MAV)です。これらの技術がどのように連携し、ヘイトスピーチ認識の精度向上に貢献するかを見ていきましょう。

SRAG-MAVフレームワークの概要

SRAG-MAVフレームワークは、以下の3つの段階を経て、入力テキストから最終的な四つ組（ターゲット、議論、ターゲットグループ、ヘイトフル）出力を生成します。

タスク再構成(TR)による問題の簡略化: 四つ組抽出問題を、より単純な三つ組抽出問題に変換します。
自己検索拡張生成(SRAG)によるコンテキスト理解の向上: トレーニングデータセットから類似のサンプルを動的に検索し、入力テキストと組み合わせて、モデルが文脈を理解するのに役立つプロンプトを作成します。
マルチラウンド累積投票(MAV)による出力の安定化: 複数回の推論を行い、各ラウンドで得られた結果に対して投票を行います。最も頻繁に出現した結果を最終的な出力として選択することで、モデルの予測の安定性を高めます。

このアプローチにより、SRAG-MAVは外部知識を必要とせずに、文脈に即した関連性の高い情報を生成し、タスクの複雑さを軽減、コンテキスト理解を向上、出力の安定性を確保します。

SRAG-MAVのアーキテクチャ

SRAG-MAVのアーキテクチャをより具体的に見ていきましょう。

データセットの変換: まず、四つ組データセットを三つ組データセットに変換します。これは、タスクの複雑さを軽減するための重要なステップです。
タスク再構成(TR)の詳細については、次のセクションで詳しく解説します。
プロンプトの構築: 次に、トレーニングデータセットから上位k個の類似サンプルを取得し、それぞれを入力テキストと連結してプロンプトを構築します。このプロンプトは、モデルがヘイトスピーチを識別するための手がかりとなります。
類似サンプルの検索には、どのような手法が用いられているのでしょうか？詳細は後述します。
投票による最終出力の決定: 最後に、モデルは生成されたプロンプトに基づいて複数回の推論を行い、各ラウンドで得られた結果に対して投票を行います。最も頻繁に出現した結果を最終的な出力として選択します。

各技術要素の連携

SRAG-MAVフレームワークの強みは、タスク再構成、自己検索拡張生成、マルチラウンド累積投票という3つの技術が緊密に連携している点にあります。

タスク再構成によって問題が簡略化され、モデルはより効率的に学習できます。
自己検索拡張生成によってコンテキスト理解が向上し、モデルはより正確な予測を行うことができます。
マルチラウンド累積投票によって出力が安定化され、モデルはより信頼性の高い結果を提供できます。

これらの技術を組み合わせることで、SRAG-MAVは従来のヘイトスピーチ認識手法を大幅に上回る性能を発揮します。次のセクションでは、これらの要素技術についてさらに詳しく見ていきましょう。

各要素技術の詳細：タスク再構成、自己検索拡張生成、マルチラウンド累積投票

このセクションでは、SRAG-MAVフレームワークを構成する3つの要素技術、すなわちタスク再構成（TR）、自己検索拡張生成（SRAG）、およびマルチラウンド累積投票（MAV）について、その詳細な仕組みと貢献を解説します。これらの技術が連携することで、中国人に対する憎悪表現を高精度に検出することが可能になります。

タスク再構成（TR）：四つ組抽出から三つ組抽出へ

タスク再構成（Task Reformulation, TR）は、複雑な問題をより扱いやすい形に変換することで、モデルの学習効率と精度を向上させることを目的としています。本研究では、CCL25-Eval Task 10で求められる四つ組（ターゲット、議論、ターゲットグループ、ヘイトフル）抽出問題を、三つ組（ターゲット、議論、ターゲットグループ）抽出問題に再構成します。これにより、モデルが予測する必要のある要素が減少し、タスクの複雑さが軽減されます。

この再構成を可能にするのが、トレーニングデータにおけるターゲットグループとヘイトフルのラベルの間の強い相関関係です。具体的には、「no-hate」のターゲットグループに対してのみヘイトフルのラベルが「no-hate」となり、それ以外の場合は「hate」となります。このパターンを利用することで、ヘイトフルのラベルはターゲットグループから決定的に推論できるため、モデルは三つ組の抽出に集中できます。

TRのメリットは、以下の通りです。

構造化された生成タスクの複雑さを軽減
大規模言語モデル（LLM）の効率と精度を向上
モデルがより重要な要素の抽出に集中できるようになる

自己検索拡張生成（SRAG）：トレーニングデータを活用したコンテキスト理解

自己検索拡張生成（Self-Retrieval-Augmented Generation, SRAG）は、Retrieval-Augmented Generation（RAG）の考え方を応用し、外部知識を利用せずにコンテキスト理解を深めることを目的としています。従来のRAGでは、外部の知識ベースから関連情報を検索してモデルの入力に加えることで、生成されるテキストのコンテキストの関連性と正確性を向上させます。しかし、FGCHSRのタスクにおいては、高品質な外部コーパスの入手が難しいという課題があります。

そこでSRAGでは、トレーニングデータ自体を検索コーパスとして利用します。入力テキストに類似したトレーニングサンプルを検索し、それらを入力テキストと組み合わせてモデルへのプロンプトを生成します。これにより、モデルは類似した事例から知識を学習し、より適切な出力を生成することができます。

SRAGの具体的な手順は、以下の通りです。

トレーニングデータのテキストをベクトル表現に変換
入力テキストに類似したトレーニングサンプルを検索
検索されたサンプルと入力テキストを組み合わせてプロンプトを生成
生成されたプロンプトをモデルに入力し、三つ組を生成

SRAGのメリットは、以下の通りです。

外部知識ベースを必要としない
リソースが限られた環境でも利用可能
ドメイン固有のタスクに適している
類似した事例から知識を学習することで、タスクの理解と出力の精度を向上

マルチラウンド累積投票（MAV）：複数回の推論による出力の安定化

マルチラウンド累積投票（Multi-Round Accumulative Voting, MAV）は、複数回の推論を行い、その結果を投票によって集計することで、出力の安定性を高めることを目的としています。大規模言語モデル（LLM）は、同じ入力に対しても異なる出力を生成することがあります。特に、複雑なタスクにおいては、出力の変動が大きくなる傾向があります。

MAVでは、SRAGによって生成されたプロンプトに対して複数回の推論を行い、各推論結果を投票として集計します。最も頻繁に出現した三つ組を最終的な出力として選択することで、モデルの出力の変動を抑制し、より安定した結果を得ることができます。

MAVの具体的な手順は、以下の通りです。

SRAGによって生成されたプロンプトに対して複数回の推論を実行
各推論結果を投票として集計
最も頻繁に出現した三つ組を最終的な出力として選択
選択された三つ組を四つ組に変換（ヘイトフルのラベルを付与）

MAVのメリットは、以下の通りです。

モデルの出力の変動を抑制し、安定性を向上
追加のトレーニングを必要としない
計算リソースに応じて調整可能
実装が容易

これらの3つの要素技術（TR、SRAG、MAV）が連携することで、SRAG-MAVフレームワークは、中国人に対する憎悪表現を高精度に検出することが可能になります。次のセクションでは、実験設定と評価指標について詳しく解説します。

実験設定と評価指標：STATE ToxiCNデータセットでの検証

本セクションでは、提案手法の有効性を検証するために使用した実験設定、評価指標、およびベースラインモデルとの比較について解説します。特に、Hard Score、Soft Score、Average Scoreという3つの主要な評価指標に焦点を当て、それぞれの意味と、提案手法の性能を測る上での重要性について詳しく説明します。

実験設定

実験では、STATE ToxiCNデータセット（Bai et al., 2025）を使用しました。このデータセットは、中国人に対するヘイトスピーチ検出を目的としたもので、4,000件のトレーニングサンプルと1,602件のテストサンプルで構成されています。これにより、十分なデータ量に基づいた客観的な評価が可能となります。

また、実験環境としては、4×NVIDIA L40S 40GB GPUを使用しました。これにより、大規模なモデルの学習と推論を効率的に行うことができます。

評価指標

提案手法の性能評価には、以下の3つの評価指標を用いました。

* Hard Score：
正確な四つ組（ターゲット、議論、ターゲットグループ、ヘイトフル）が完全に一致した場合のF1スコアです。この指標は、モデルがヘイトスピーチの構造を正確に把握できているかを評価するために重要です。高いHard Scoreは、モデルがヘイトスピーチの微妙なニュアンスを捉え、正確に分類できることを示唆します。

* Soft Score：
部分的な一致を考慮したF1スコアです。具体的には、ターゲットグループとヘイトフルのラベルが一致し、ターゲットと議論の類似性が50%を超える場合に、部分的な一致とみなします。この指標は、モデルが完全一致には至らないものの、意味的に近い関係性を捉えられているかを評価するために用います。

* Average Score：
Hard ScoreとSoft Scoreの平均値です。この指標は、モデルの全体的な性能をバランス良く評価するために使用します。

ベースラインモデルとの比較

提案手法の有効性を評価するために、以下のベースラインモデルとの比較を行いました。

* GPT-40（平均スコア15.63）
* ファインチューニングされたQwen2.5-7B（平均スコア35.365）

これらのベースラインモデルは、STATE ToxiCNデータセットに関する既存研究（Bai et al., 2025）で報告されている性能を引用しています。これにより、提案手法が既存手法と比較してどの程度優れているかを客観的に評価することができます。

これらの評価指標とベースラインモデルとの比較を通じて、提案手法の有効性を定量的に評価し、その優位性を示すことを目指します。

実験結果：ベースラインモデルを大幅に上回る性能

本セクションでは、提案手法であるSRAG-MAVフレームワークの実験結果について詳しく解説します。STATE ToxiCNデータセットを用いた評価の結果、SRAG-MAVは既存のベースラインモデルを大幅に上回る性能を示すことが明らかになりました。特に、Hard Scoreの向上が顕著であり、これは正確な四つ組抽出能力が向上したことを示唆しています。

実験結果の概要

STATE ToxiCNデータセットにおいて、SRAG-MAVは以下のスコアを達成しました。

Hard Score：26.66
Soft Score：48.35
Average Score：37.505

これらの数値は、バニラ教師ありファインチューニング（SFT）で学習させたベースラインモデルと比較して、大幅な性能向上を示しています。具体的には、GPT-40（平均スコア15.63）やファインチューニングされたQwen2.5-7B（平均スコア35.365）といったモデルを大きく上回る結果となりました。

Hard Scoreの重要性

Hard Scoreは、四つ組（ターゲット、議論、ターゲットグループ、ヘイトフル）が完全に一致した場合のF1スコアを表します。このスコアが高いということは、モデルが正確にヘイトスピーチの構造を捉えられていることを意味します。SRAG-MAVがHard Scoreで優れた結果を出したことは、その高い精度を証明するものです。

MAV閾値パラメータの影響

マルチラウンド累積投票（MAV）における閾値パラメータ（τ）の影響についても分析を行いました。その結果、閾値を調整することでモデルの性能が変化することがわかりました。例えば、ハードスコアはτ=80からτ=200に増加させることで、26.11から26.66へと顕著な上昇を見せました。これは、MAVが累積投票を通じて出力の安定性を高め、より正確な結果をもたらすことを示唆しています。

表：モデルの性能比較

以下に、SRAG-MAVとベースラインモデルの性能比較を表で示します。

モデル	Hard Score	Soft Score	Average Score
mT5-base	16.60	38.61	27.605
Mistral-7B	23.72	45.62	34.670
LLaMA3-8B	24.27	46.08	35.175
Qwen2.5-7B	23.70	47.03	35.365
ShieldLM-14B-Qwen	23.59	45.58	34.585
ShieldGemma-9B	23.49	47.14	35.315
Ours (SRAG-MAV)	26.66	48.35	37.505

この表から明らかなように、SRAG-MAVはすべての評価指標において、他のモデルを大きく上回る結果を残しました。特に、Hard Scoreにおける3ポイント近い差は、提案手法の有効性を示す強力な証拠と言えるでしょう。

これらの実験結果は、SRAG-MAVフレームワークが中国語のヘイトスピーチ認識において、非常に有望なアプローチであることを示しています。

アブレーションスタディ：各要素技術の貢献度分析

アブレーションスタディは、提案されたSRAG-MAVフレームワークにおいて、各要素技術（タスク再構成、自己検索拡張生成、マルチラウンド累積投票）が最終的な性能にどれだけ貢献しているかを定量的に評価する上で不可欠な分析です。それぞれの要素を段階的に取り除くことで、各要素の重要性を明らかにします。

アブレーションスタディの結果概要

実験結果から、各要素技術の貢献度は以下の通りです。

* **ベースモデル (Qwen2.5-7B)**: Hard Score 23.70, Soft Score 47.03, Average Score 35.365
* **+ TR (タスク再構成)**: Hard Score 24.33, Soft Score 47.35, Average Score 35.840
* **+ TR + SRAG (自己検索拡張生成)**: Hard Score 25.30, Soft Score 47.85, Average Score 36.575
* **+ TR + SRAG + MAV (マルチラウンド累積投票)**: Hard Score 26.66, Soft Score 48.35, Average Score 37.505

アブレーションスタディの結果を表にまとめました。各要素を追加するごとに性能が向上していることがわかります。

各要素技術の貢献度詳細

各要素技術がどのように性能向上に貢献しているのかを詳しく見ていきましょう。

* **タスク再構成 (TR)**

タスク再構成は、四つ組抽出問題を三つ組抽出問題に変換することで、モデルが学習すべき構造を簡素化します。これにより、モデルはより効率的にパターンを学習し、初期段階で性能が向上します。特に、中国語のヘイトスピーチのような複雑なタスクにおいて、問題の構造を単純化することは有効です。TRによって、Hard Score、Soft Score、Average Scoreの全てがわずかに向上しています。

* **自己検索拡張生成 (SRAG)**

SRAGは、トレーニングデータセット自体を知識源として活用し、コンテキストに基づいた情報を提供します。モデルは、入力テキストに類似した例文を検索し、それらをプロンプトに組み込むことで、より適切な出力を生成します。SRAGの導入により、特にHard Scoreが大きく向上しており、モデルがより正確な四つ組を抽出できるようになったことを示唆しています。

* **マルチラウンド累積投票 (MAV)**

MAVは、複数回の推論を行い、その結果を投票によって集約することで、モデルの出力の安定性を高めます。異なるプロンプトから得られた複数の予測を組み合わせることで、ノイズの影響を軽減し、より信頼性の高い結果を得ることができます。MAVの追加により、Hard Scoreがさらに向上し、最終的なシステム全体の性能が最大化されています。

SRAG-MAVフレームワークは、各要素技術が互いに補完し合うことで、高い性能を実現しています。

結論

アブレーションスタディの結果は、SRAG-MAVフレームワークの各要素技術が、中国人に対する憎悪表現の識別において重要な役割を果たしていることを明確に示しています。タスク再構成は問題の簡略化、自己検索拡張生成はコンテキストの強化、そしてマルチラウンド累積投票は出力の安定化に貢献し、これら３つの要素が組み合わさることで、既存手法を大幅に上回る性能を実現しています。