LLMで毒性検出！低リソース言語への挑戦

紹介論文
1. この論文を一言でまとめると
はじめに：毒性言語と低リソース言語の課題
論文の要約：実験設定とデータセット
実験結果の詳細分析：LLMの性能比較
実用的な改善策：プロンプト設計と閾値調整
今後の展望：さらなる性能向上に向けて
まとめ：低リソース言語における毒性検出の未来

紹介論文

今回紹介する論文はLarge Language Models for Toxic Language Detection in Low-Resource
Balkan Languagesという論文です。

https://arxiv.org/pdf/2506.09992v1.pdf

この論文を一言でまとめると

本記事では、低リソースなバルカン言語における毒性言語検出に関する最新の研究論文を解説します。LLMの性能評価から実用的な改善策、今後の展望まで、幅広くカバーします。毒性検出の現状を理解し、具体的な対策を検討したい方におすすめです。

はじめに：毒性言語と低リソース言語の課題

オンラインでのコミュニケーションは、私たちの生活に欠かせないものとなりました。しかし、その一方で、毒性言語という深刻な問題が、個人や社会に大きな影響を与えています。毒性言語とは、ヘイトスピーチ、侮辱、脅迫、ハラスメントなど、不快で有害な表現のことで、特に政治的に不安定な地域や紛争後の地域では、社会の分断を助長し、対立を激化させる可能性があります。

オンラインでの毒性言語は、匿名性、責任の欠如、情報拡散の速さなどが原因で、急速に広がる傾向があります。

自動moderationシステムは、毒性言語の検出と対策に役立ちますが、英語のような高リソース言語に最適化されていることが多く、セルビア語、ボスニア語、クロアチア語など、データセットやツールが限られている低リソース言語への対応は不十分です。

Balkan Investigative Reporting Network (BIRN)の2021年の調査によると、バルカン言語で報告された有害な投稿の約半分が、FacebookとTwitterがルールに違反していることを確認した後もオンラインに残っていました。

本記事では、大規模言語モデル（LLM）が、セルビア語、ボスニア語、クロアチア語のコメントに含まれる毒性言語を検出する能力を評価した研究論文「Large Language Models for Toxic Language Detection in Low-Resource Balkan Languages」を解説します。YouTubeやTikTokなどのプラットフォームでのコメントを分析対象とし、LLMの性能を評価し、実用的な改善策を提案することで、低リソース言語におけるオンライン環境の安全性向上に貢献することを目指します。

大規模言語モデル（LLM）は、ゼロショットやfew-shotでの学習能力、多言語対応能力により、低リソース言語の毒性検出に新たな可能性をもたらすと期待されています。しかし、言語的特徴（スラング、皮肉、コードスイッチングなど）や文化的背景の理解も必要であり、汎用的なモデルでは対応が難しいのが現状です。

本記事を通して、読者の皆様が毒性言語の脅威と低リソース言語における課題を理解し、今後の対策を検討するきっかけとなれば幸いです。

論文の要約：実験設定とデータセット

このセクションでは、本論文の全体像を把握するために、研究の概要、実験設定、そして重要なデータセットの構築について詳しく解説します。どのようなアプローチで、どのような言語モデルが用いられたのか、そして、その評価のためにどのようなデータセットが作られたのかを見ていきましょう。

論文の概要：LLMでバルカン言語の毒性検出に挑戦

本研究は、大規模言語モデル（LLM）が、リソースの限られたバルカン言語（セルビア語、ボスニア語、クロアチア語）のオンラインコメントに含まれる毒性言語を検出する能力を評価することを目的としています。特に、短いビデオの説明文などのコンテキスト情報を加えることで、LLMの性能がどのように変化するかを検証しています。

具体的には、以下の4つのLLMを使用し、精度、再現率、F1スコアなどの指標を用いて性能を比較しています。

GPT-3.5 Turbo
GPT-4.1
Gemini 1.5 Pro
Claude 3 Opus

実験設定：ゼロショットとコンテキスト拡張

実験は、ゼロショットとコンテキスト拡張という2つの異なるモードで行われました。

ゼロショット：LLMにコメントのみを与え、毒性の有無を判断させます。
コンテキスト拡張：コメントに加え、そのコメントが投稿されたビデオに関する短い説明文（コンテキスト情報）も与えます。

このコンテキスト拡張によって、LLMがより的確な判断を下せるようになるのかが、本研究の重要なポイントです。

データセット構築：手作業によるラベル付け

実験に使用されたデータセットは、YouTubeとTikTokから収集された4,500件のコメントで構成されています。これらのコメントは、音楽、政治、スポーツ、モデリングなど、多様なカテゴリのビデオから抽出されました。そして、これらのコメントには、研究者自身が手作業で毒性の有無のラベル付けを行っています。

アノテーションの信頼性を高めるために、アノテーター間の合意率を測定したところ、94%という高い合意率が得られました。また、CohenのKappa係数も0.87であり、データセットの品質が十分に高いことが確認されています。

また、個人情報保護の観点から、ユーザーIDなどの個人を特定できる情報はデータセットから削除されています。さらに、各ビデオについて、短いコンテキスト情報を手動で作成し、LLMに入力するプロンプトに組み込んでいます。

プロンプト：LLMへの指示文

LLMに与えるプロンプト（指示文）は、ゼロショットとコンテキスト拡張で異なっています。それぞれのプロンプトの例を見てみましょう。

ゼロショットプロンプトの例：

セルビア語、ボスニア語、クロアチア語で書かれた以下のコメントを分析してください。コメントはYouTubeまたはTikTokの動画への返信です。コメントに、侮辱、ヘイトスピーチ、脅迫、ハラスメント、有害な皮肉などの有害な言葉が含まれているかどうかを判断してください。地域のスラング、皮肉、口調、文化的背景を考慮してください。コメントが有害でない場合は0、有害な場合は1で答えてください。他のテキストで応答しないでください。コメント：＜コメントテキスト＞

コンテキスト拡張プロンプトの例：

セルビア語、ボスニア語、クロアチア語で書かれた以下のコメントを分析してください。コメントはYouTubeまたはTikTokの動画への返信です。提供されたコンテキストを使用して、動画の内容を理解してください。動画に関するコンテキスト：＜コンテキスト＞コメントに、侮辱、ヘイトスピーチ、脅迫、ハラスメント、有害な皮肉などの有害な言葉が含まれているかどうかを判断してください。地域のスラング、皮肉、口調、文化的背景を考慮してください。コメントが有害でない場合は0、有害な場合は1で答えてください。他のテキストで応答しないでください。コメント：＜コメントテキスト＞

このように、LLMには、コメントの毒性の有無を判断するだけでなく、地域の文化やスラング、そしてビデオのコンテキストを考慮するように指示が出されています。

実験結果の詳細分析：LLMの性能比較

本セクションでは、論文で報告された実験結果を詳細に分析し、LLMの性能を比較検討します。ゼロショットとコンテキスト付与の効果、モデルごとの性能差、偽陽性と偽陰性のトレードオフなどについて、具体的なデータに基づいて解説します。

全体的なモデルの性能

コンテキスト拡張の効果: 全体として、コンテキスト拡張を行うことで、毒性検出の精度が向上する傾向が見られました。特に、後述する再現率の改善に大きく貢献しています。
精度範囲: 精度は、Claude 3 Opusのゼロショット(CL-Z)の0.734から、Gemini 1.5 Proのコンテキスト拡張(GM-C)の0.823まで幅がありました。このことから、モデルの選択とコンテキストの付与が、精度に大きな影響を与えることがわかります。
真陽性・偽陽性バランス: 各モデルが、毒性コメントを過剰に検出してしまうこと(偽陽性)と、検出漏れ(偽陰性)のバランスをどのように取っているかを確認しました。これは、実際の運用を考える上で非常に重要な視点です。

適合率 vs 再現率

適合率と再現率は、毒性検出モデルの性能を評価する上で重要な指標です。適合率は、モデルが毒性と判定したコメントのうち、実際に毒性コメントである割合を示します。一方、再現率は、データセットに含まれる毒性コメントのうち、モデルが正しく毒性と判定できた割合を示します。

GPT-4.1ゼロショット(G4-Z): 非常に高い適合率(0.940)を達成しましたが、再現率は0.582にとどまりました。つまり、毒性と判定されたコメントのほとんどは実際に毒性コメントでしたが、データセット全体の毒性コメントのうち、半分近くを検出できていないことを意味します。
適合率が高いモデルは、誤検出を避けたい場合に有効です。例えば、誤ってユーザーの投稿を削除してしまうことの影響が大きい場合に適しています。
コンテキスト拡張モデル(G3-C, GM-C): GPT-3.5 Turboコンテキスト拡張(G3-C)やGemini 1.5 Proコンテキスト拡張(GM-C)は、適合率を0.79以上に維持しながら、再現率を0.70台後半まで向上させました。これは、ゼロショットモデルに比べて、より多くの毒性コメントを検出できることを意味します。
再現率が高いモデルは、毒性コメントの検出漏れを防ぎたい場合に有効です。例えば、ヘイトスピーチなど、放置すると深刻な影響を及ぼす可能性のあるコメントを確実に検出したい場合に適しています。

偽陽性率 vs 再現率

偽陽性率と再現率のグラフを見ると、GPT-4.1ゼロショット(G4-Z)とClaude 3 Opusゼロショット(CL-Z)が、理想的な左上隅に近い位置にあります。これは、これらのモデルが無害なコメントを誤って毒性と判定することが少なく、かつ毒性コメントをある程度検出できることを示唆しています。

一方、GPT-3.5 Turboコンテキスト拡張(G3-C)は、再現率が0.791と高いものの、偽陽性率も0.212と高くなっています。つまり、無害なコメントの5件に1件以上を誤って毒性と判定してしまう可能性があります。

コンテキストの重要性

コンテキスト拡張の有無でF1スコアを比較すると、ほとんどのモデルでコンテキスト拡張によってF1スコアが向上しました。これは、コメントが投稿されたビデオに関する情報(コンテキスト)を提供することで、モデルがコメントの意図やニュアンスをより正確に理解できるようになるためと考えられます。

特に、Gemini 1.5 Proコンテキスト拡張(GM-C)は、F1スコアが0.819と最も高い値を達成しました。このことから、Gemini 1.5 Proは、コンテキスト情報を効果的に活用して、毒性検出の精度を向上させることができると考えられます。

コスト比較

各モデルのAPI利用コストを比較した結果、GPT-3.5 Turboが最もコストパフォーマンスに優れていることがわかりました。一方、Claude 3 Opusは、GPT-3.5 Turboと比較してコストが大幅に高いものの、性能向上は限定的でした。

また、コンテキスト拡張を行うことで、API利用コストが約30〜40%増加することもわかりました。コンテキスト拡張を行うかどうかは、コストと性能のバランスを考慮して慎重に判断する必要があります。

言語別のパフォーマンス

セルビア語、ボスニア語、クロアチア語のそれぞれでF1スコアを評価した結果、どの言語でもコンテキスト拡張によってF1スコアが向上しました。このことから、コンテキスト拡張は、これらの言語に共通する特徴を捉え、毒性検出の精度を向上させる効果があると考えられます。

Gemini 1.5 Proコンテキスト拡張は、全体的に最も高いスコアを達成し、特にクロアチア語で大きな向上が見られました。

結果のまとめ

コンテキスト拡張は、再現率とF1スコアを向上させる効果がある。
GPT-4.1ゼロショットは、適合率が最も高く、誤検出を避けたい場合に適している。
Gemini 1.5 Proコンテキスト拡張は、最もバランスの取れた性能を示し、高い精度と再現率を両立できる。
GPT-3.5 Turboは、コストパフォーマンスに優れている。

以上の結果から、毒性検出モデルの選択とコンテキストの付与は、精度に大きな影響を与えることがわかります。また、実際の運用においては、適合率、再現率、コストなどを総合的に考慮して、最適なモデルと設定を選択する必要があります。

実用的な改善策：プロンプト設計と閾値調整

実験結果から、大規模言語モデル（LLM）を用いた毒性言語検出の実用的な改善策が見えてきました。ここでは、その中でも特に重要なプロンプト設計、閾値調整、アンサンブル手法について解説します。

プロンプト設計の重要性

LLMの性能は、与えるプロンプトに大きく左右されます。今回の研究でも、わずか2文のコンテキスト情報を加えるだけで、検出精度が大幅に向上することが示されました。これは、LLMが文脈を理解し、より正確な判断を下すために、適切な情報を提供することが不可欠であることを意味します。

例えば、「Zašto su birali bolesnu osobu?」（なぜ彼らは病気の人を選んだのですか？）というコメントは、ゼロショットモードではすべてのモデルで見逃されました。しかし、インタビュー中に苦労しているセルビアの政治家について言及しているというコンテキストを追加したところ、すべてのコンテキスト拡張実行で正しくフラグが立てられました。

このように、LLMに必要な文脈情報を適切に伝えることで、毒性言語の検出精度を向上させることができます。具体的には、以下の点に注意してプロンプトを設計しましょう。

コメントが投稿された動画や記事の概要を簡潔に記述する
地域のスラング、皮肉、文化的背景など、判断に必要な情報を明示的に伝える
LLMに期待する出力形式（例：0または1）を明確に指示する

エッジケースの認識

コンテキストは非常に重要ですが、与えすぎると無害なコンテンツを過剰にフラグ付けする可能性もあります。例えば、「Trebao je dobiti status branitelja za ovaj pothvat.」（彼はこの取り組みでベテランの地位を得るべきだった。）という発言は、セルビアが勝利を収める可能性があった反撃を防いだファウルを指していますが、GPT-3.5 Turboコンテキスト拡張とGemini 1.5 Proコンテキスト拡張の両方で有害であると誤分類されました。

LLMは、提供された情報に基づいて判断するため、文脈によっては誤った解釈をする可能性があります。そのため、LLMの判断を鵜呑みにせず、必要に応じて人間がレビューを行うことが重要です。

閾値調整

LLMは、コメントが毒性である確率を出力します。この確率に基づいて、コメントを毒性あり/なしに分類するわけですが、この分類の閾値を調整することで、システムの特性を調整できます。

閾値を高く設定する：毒性ありと判断されるコメントが少なくなり、偽陽性（無害なコメントを有害と誤判定）が減ります。適合率を重視する場合に有効です。
閾値を低く設定する：毒性ありと判断されるコメントが多くなり、偽陰性（有害なコメントを無害と誤判定）が減ります。再現率を重視する場合に有効です。

システムの目的に応じて、適切な閾値を設定することが重要です。

アンサンブル手法

複数のLLMを組み合わせることで、よりロバストな毒性言語検出システムを構築できます。例えば、適合率の高いモデル（例：GPT-4.1ゼロショット）と再現率の高いモデル（例：GPT-3.5 Turboコンテキスト拡張）を組み合わせることで、それぞれのモデルの長所を活かすことができます。

アンサンブル手法の例としては、以下のものがあります。

複数のモデルの判断結果を多数決で決定する
複数のモデルの出力を組み合わせて、最終的なスコアを算出する

アンサンブル手法

複数のモデルを組み合わせることで、個々のモデルの弱点を補い、よりロバストなシステムを構築できます。

まとめ

今回の研究から、LLMを用いた毒性言語検出において、プロンプト設計、閾値調整、アンサンブル手法などが有効であることがわかりました。これらの改善策を組み合わせることで、より高精度で実用的な毒性言語検出システムを構築できると考えられます。

今後の展望：さらなる性能向上に向けて

この研究から得られた知見をもとに、毒性言語検出の精度をさらに向上させるための将来的な展望を考察します。ここでは、LLMの可能性を最大限に引き出すためのいくつかの方向性を示します。

動的なコンテキスト生成

手動で作成されたコンテキストは、時間と労力を要します。そこで、自動的にコンテキストを生成する技術が重要になります。

* **自動要約：** 動画の説明文やユーザープロファイルをLLMで自動的に要約し、コンテキストとして利用します。これにより、手動でのコンテキスト作成の負担を軽減し、より多様な情報をモデルに提供できます。
* **ピボット言語翻訳：** 低リソース言語から高リソース言語（例：英語）に翻訳し、その翻訳文をコンテキストとして利用します。高リソース言語で開発されたツールや知識を活用することで、より効果的なコンテキストを提供できる可能性があります。

少数のサンプルでの学習とチェーン・オブ・ソートプロンプト

LLMは、大量のデータがなくても、少数のサンプルから学習する能力を持っています。

* **Few-shot Learning：** いくつかの例をモデルに与えることで、特定のパターンやニュアンスを学習させます。例えば、皮肉や隠れた毒性を含むコメントの例をfew-shotで学習させることで、検出精度を向上させることが期待できます。
* **Chain-of-Thought (CoT)プロンプト：** モデルに段階的な推論を促すプロンプトを設計します。例えば、「このコメントはどのような文脈で書かれたか？」「皮肉が含まれているか？」「誰かを傷つける意図があるか？」といった質問を順番に答えるように促すことで、より正確な判断を導き出すことができます。

軽量なファインチューニングアダプター

ファインチューニングは、モデルを特定のタスクに最適化するための強力な手法です。

* **アダプターレイヤー：** LLM全体をファインチューニングする代わりに、少数のアダプターレイヤーのみを学習させます。これにより、計算コストを抑えつつ、特定のドメインや言語に特化した知識をモデルに組み込むことができます。
* **4500コメントデータセットの活用：** 本研究で使用した4500件のコメントデータセットを、アダプターレイヤーの学習に利用します。このデータセットは、バルカン言語の毒性言語の特性を捉えているため、効果的なファインチューニングが期待できます。

人間参加型システム

完全に自動化されたシステムだけでなく、人間の判断を組み合わせることで、より信頼性の高いシステムを構築できます。

* **モデルの信頼度スコアの活用：** モデルが自信を持って判断できないケースを特定します。これらのケースを人間のモデレーターに提示し、判断を仰ぎます。
* **コンテキスト情報の提示：** モデレーターに対し、コメントだけでなく、関連するコンテキスト情報（動画の説明文、ユーザープロファイルなど）も提示します。これにより、モデレーターはより適切な判断を下すことができます。

これらの将来的な展望は、LLMを活用した毒性言語検出の可能性を広げるものです。今後の研究開発により、低リソース言語におけるオンライン環境がより安全で快適になることが期待されます。

まとめ：低リソース言語における毒性検出の未来

本記事では、低リソースなバルカン言語における毒性言語検出という、困難ながらも重要なテーマに取り組んだ研究論文「Large Language Models for Toxic Language Detection in Low-Resource Balkan Languages」を解説しました。

### 研究成果のまとめ

この研究から、以下の点が明らかになりました。

* コンテキスト拡張というシンプルな手法が、LLMの毒性検出性能を大きく向上させる可能性がある
* 特にGemini 1.5 Pro コンテキスト拡張モデルが、バランスの取れた高い性能を発揮する
* GPT-4.1 ゼロショットモデルは、誤検出を抑制する上で優れている

### 低リソース言語における毒性検出の重要性

オンライン空間における毒性言語は、社会の分断を招き、人々に深刻な精神的苦痛を与えます。特に、十分なリソースを持たない言語においては、その影響が看過されがちです。本研究は、そうした状況に一石を投じるものであり、AI技術が社会的な課題解決に貢献できる可能性を示唆しています。

### 読者の皆様へ

この研究は、まだ始まったばかりの旅の、ほんの入り口に過ぎません。しかし、一歩を踏み出すことで、未来は大きく変わる可能性があります。ぜひ、この研究をきっかけに、皆様それぞれの立場で、より安全で快適なオンライン環境の実現に向けて行動を起こしていただければ幸いです。

* プラットフォームの運営者の方は、本研究で示された手法を参考に、自社のシステムへの導入を検討してみてください。
* 研究者やエンジニアの方は、この分野に参入し、さらなる技術革新を目指してください。
* そして、私たち一人ひとりが、オンラインでのコミュニケーションにおいて、互いを尊重し、思いやりのある言葉を使うことを心がけましょう。

文脈拡張は、サービスが十分に行き届いていない言語での毒性検出を改善するための、参入障壁が低く、影響力の高い手法です。より安全で包括的なオンライン環境を構築するために、皆様と共に歩んでいけることを願っています。