LLMの防御を突破する：STACK攻撃とは？

紹介論文

今回紹介する論文はSTACK: Adversarial Attacks on LLM Safeguard Pipelinesという論文です。

https://arxiv.org/pdf/2506.24068v1.pdf

この論文を一言でまとめると

本論文では、大規模言語モデル(LLM)の安全性を脅かす新たな攻撃手法「STACK」を提案し、既存の防御パイプラインに対する脆弱性を検証します。また、LLMの安全性を高めるための具体的な対策を提示します。

はじめに：LLMの安全保障における新たな戦い

AI技術、特に大規模言語モデル（LLM）の進化は目覚ましいものがあります。その能力は、翻訳、文章生成、質問応答など多岐にわたるタスクを効率化し、私たちの生活やビジネスに革新をもたらしています。しかし、その一方で、LLMが悪意のある目的に利用されるリスクも高まっており、安全保障の重要性がかつてないほど高まっています。

例えば、OpenAIのO3-miniは人間レベルの説得能力を持つことが示されており、CBRN兵器の開発支援など、潜在的な脅威として評価されています。

LLMの安全性を確保するため、AI開発者は防御パイプラインを導入しています。これは、入力フィルタ、出力フィルタ、アクティベーションプローブといった複数の防御層を重ね合わせることで、有害なリクエストがLLMに到達するのを防ぐ仕組みです。Anthropic、Google DeepMind、OpenAIなどの主要企業は、AIシステムの誤用を防ぐための安全フレームワークの開発に取り組んでいます。

しかし、既存の防御パイプラインのセキュリティは決して盤石ではありません。攻撃者は、様々な脆弱性を突いて防御を突破し、有害なコンテンツを生成させようと試みています。そのため、防御パイプラインに対する攻撃手法の開発と評価は、LLMの安全性を向上させるために不可欠な取り組みと言えるでしょう。

本記事では、LLMの防御パイプラインに対する新たな攻撃手法である「STACK」に焦点を当て、その脅威と対策について解説します。STACK攻撃は、既存の防御パイプラインを段階的に突破し、有害なコンテンツを生成させることを目的としており、その有効性は実験によって検証されています。本記事を通して、LLMのセキュリティ対策の現状と、私たちが向き合うべき課題について理解を深めていただければ幸いです。

## 防御を突破する：STACK攻撃のメカニズム

本セクションでは、論文で提案された斬新な攻撃手法「STACK」が、どのようにしてLLMの堅牢な防御を無効化するのか、そのメカニズムを詳細に解説します。読者の皆様は、この攻撃がLLMの入力および出力フィルタを段階的に突破し、最終的に有害なコンテンツを生成させるプロセスを理解することで、セキュリティリスクに対する意識を高めることができます。

### STACK攻撃とは？

STACK（STaged AttaCK）は、その名の通り、段階的に防御を突破していく攻撃手法です。LLMの安全性を確保するために設けられた防御パイプラインは、通常、複数の防御層で構成されています。STACK攻撃は、これらの層を一つずつ攻略していくことで、最終的な目的である有害コンテンツの生成を達成します。

具体的には、STACK攻撃は以下のステップで進行します。

1. **入力フィルタの攻略：** 最初のステップでは、入力フィルタを回避するための巧妙な入力クエリを作成します。攻撃者は、入力フィルタが有害なコンテンツを検出できないように、言い回しや表現を工夫します。例えば、有害なキーワードを隠したり、無害な表現に置き換えたりするテクニックが用いられます。

2. **LLMの攻略：** 次に、LLM自体を攻略します。LLMは、与えられた指示に忠実に従うように設計されていますが、この性質を悪用し、安全ガードレールを回避するようなプロンプトをLLMに与えます。例えば、「〇〇になりきって」というロールプレイ形式で、有害なコンテンツを生成させる指示を与えることがあります。

3. **出力フィルタの攻略：** LLMが有害なコンテンツを生成した場合でも、出力フィルタがそれを検出し、ブロックする必要があります。しかし、STACK攻撃では、出力フィルタを回避するために、LLMの出力を巧妙に修正します。有害なコンテンツを隠蔽したり、無害なコンテンツに偽装したりするテクニックが用いられます。

4. **jailbreakの組み合わせ：** 最後に、入力フィルタ、LLM、出力フィルタに対する個別のjailbreakを組み合わせることで、防御パイプライン全体を突破する完全なjailbreakを構築します。この段階では、各ステップで得られた知見を統合し、全体の攻撃戦略を最適化します。

### 多様な攻撃バリエーション

STACK攻撃には、さまざまなバリエーションが存在します。攻撃者は、防御パイプラインに関する情報の有無や、攻撃の目的に応じて、最適なバリエーションを選択することができます。

* **ブラックボックス攻撃：** 防御パイプラインの内部構造に関する知識がない状態で、入力と出力のみを観察して攻撃を開発します。このタイプの攻撃は、実際のLLMシステムに対する攻撃を模倣しており、現実的な脅威を評価する上で重要です。

* **ホワイトボックス攻撃：** 防御パイプラインの内部構造に関する完全な知識を利用して、攻撃を開発します。このタイプの攻撃は、防御の脆弱性を特定し、将来の攻撃に対する対策を講じる上で役立ちます。

* **転移攻撃：** ある防御パイプラインに対して開発された攻撃を、別の防御パイプラインに転移させます。このタイプの攻撃は、異なるシステム間での脆弱性の共有を明らかにし、防御戦略の一般化に役立ちます。

### STACK攻撃の利点

STACK攻撃は、既存の防御パイプラインに対して非常に効果的であることが、論文の結果から示されています。従来の攻撃手法と比較して、STACK攻撃には以下のような利点があります。

* **高い攻撃成功率：** STACK攻撃は、防御パイプラインの各コンポーネントに対する個別の脆弱性を悪用するため、単一の防御層を突破するよりも成功率が高くなります。

* **多様なシナリオへの適用性：** STACK攻撃は、ブラックボックス、ホワイトボックス、転移攻撃など、さまざまなシナリオに適用できます。これにより、攻撃者は、防御システムの特性に応じて最適な攻撃戦略を選択することができます。

* **段階的な攻略による突破：** STACK攻撃は、防御層を段階的に攻略していくため、単一の脆弱性だけでなく、複数の脆弱性を組み合わせることで防御を突破することができます。

STACK攻撃のメカニズムを理解することで、LLMのセキュリティリスクに対する意識を高め、より効果的な防御戦略を開発するための第一歩を踏み出すことができます。次のセクションでは、STACK攻撃の有効性を評価するために行われた実験設定と評価方法について詳しく解説します。

実験設定：攻撃はどのように評価されたのか？

本論文では、大規模言語モデル（LLM）に対する新たな攻撃手法であるSTACKの有効性を検証するために、綿密な実験設定と評価方法が採用されています。ここでは、その詳細を解説し、読者がSTACK攻撃の有効性を理解できるようにします。

データセット

STACK攻撃の評価には、以下の2つのデータセットが用いられました。

StrongREJECT：一般的な有害性評価を目的としたデータセットで、違法な商品やサービス、暴力、差別など、幅広い有害コンテンツを含む313件のクエリで構成されています。
ClearHarm：特に有害性が高く、大量殺傷や経済的損害につながる可能性のあるクエリを集めたデータセットです。これは、壊滅的な誤用という観点から、STACK攻撃の有効性を評価するために特別に設計されています。

これらのデータセットを使用することで、STACK攻撃が一般的な有害コンテンツだけでなく、より深刻な脅威となる可能性のあるコンテンツに対しても有効であるかを検証しています。

モデル

実験では、以下のモデルが使用されました。

Qwen3-14B：ターゲットモデルとして使用されたオープンソースの命令調整モデルです。思考能力は無効化されており、これは攻撃の影響をより明確に評価するための措置です。
ShieldGemma：オープンソースのセーフガードモデルであり、STACK攻撃に対する防御のベースラインとして機能します。
Gemma2：少数のプロンプトによる分類器として使用され、タスク固有の微調整なしに最高の性能を発揮することが示されました。これは、大規模な調整なしでも、効果的な防御が構築可能であることを示唆しています。

評価指標

STACK攻撃の有効性は、以下の主要な評価指標に基づいて測定されました。

攻撃成功率（ASR）：攻撃が成功し、有害なコンテンツが生成された割合を示します。ASRが高いほど、攻撃が効果的であることを意味します。
拒否率（RR）：良性の入力が誤って拒否される割合を示します。RRが高いほど、防御が過剰であり、有用なコンテンツへのアクセスが制限されることを意味します。

これらの指標を組み合わせることで、防御の有効性とユーザビリティのバランスを評価しています。

実験手順

実験は、以下の手順で実施されました。

防御パイプラインの構築：オープンソースのセーフガードモデルを組み合わせて、さまざまな防御パイプラインを構築しました。
STACK攻撃の実行：構築されたパイプラインに対して、STACK攻撃を実行し、その有効性を評価しました。
ASRとRRの測定：攻撃成功率と拒否率を測定し、防御の有効性と過剰拒否の程度を評価しました。
閾値の調整：各パイプラインの分類閾値を調整し、一貫した拒否率（15%）を維持することで、公平な比較を可能にしました。

まとめ

これらの実験設定と評価方法により、本論文ではSTACK攻撃の有効性を定量的に評価し、既存の防御パイプラインの脆弱性を明らかにしています。ASRとRRの測定を通じて、防御の有効性とユーザビリティのトレードオフを分析し、より効果的な防御戦略を開発するための基盤を築いています。

実験結果：既存の防御は簡単に突破される？

本セクションでは、論文で実施された実験の結果を詳細に分析し、STACK攻撃の有効性と限界を明らかにします。これらの結果から、読者は既存の防御パイプラインがSTACK攻撃に対してどの程度脆弱であるかを理解し、今後の防御戦略を検討する上で重要な洞察を得ることができます。

既存の防御パイプラインの脆弱性

実験結果の最も重要なポイントは、既存の防御パイプラインがSTACK攻撃に対して脆弱であることです。STACK攻撃は、入力フィルタ、LLM、出力フィルタといった複数の防御層を段階的に突破し、有害なコンテンツを生成することに成功しました。これは、現在のLLMの安全対策が、巧妙に設計された攻撃に対して十分な防御能力を備えていないことを示唆しています。

STACK攻撃の有効性

STACK攻撃は、既存の攻撃手法（例えばPAP攻撃）と比較して、より高い攻撃成功率（ASR）を達成しました。これは、STACK攻撃が、防御パイプラインの各コンポーネントに存在する個別の脆弱性を効果的に悪用できるためです。各段階で脆弱性を突くことで、単一の防御層を突破するよりも全体的な成功率が高まります。

さらに、STACK攻撃は、ブラックボックス攻撃、ホワイトボックス攻撃、転移攻撃など、さまざまな攻撃シナリオにおいて有効であることが示されました。攻撃者は、防御パイプラインの内部構造に関する知識の有無にかかわらず、STACK攻撃を適用して防御を突破できます。また、ある防御パイプラインに対して開発されたSTACK攻撃は、別の防御パイプラインにも転移可能であり、広範な脆弱性を示唆しています。

防御パイプラインの限界

実験結果は、既存の防御パイプラインが、STACK攻撃のような高度な攻撃手法に対して、十分な防御を提供できていないことを明確に示しています。その理由の一つとして、多くの防御パイプラインは、個々の防御層が独立して機能するように設計されている点が挙げられます。そのため、STACK攻撃のように複数の防御層を連携して突破する攻撃に対して脆弱です。

また、既存の防御パイプラインは、LLMの内部構造に関する知識なしに設計されているため、LLM自体の脆弱性を悪用する攻撃に対して効果が限定的です。攻撃者は、LLMのプロンプトに対する感受性や、安全ガードレールを回避する能力を利用して、有害なコンテンツを生成させることができます。

防御強化の必要性

これらの結果は、LLMの安全性を高めるためには、既存の防御パイプラインを強化する必要があることを強く示唆しています。防御パイプラインの各コンポーネントを個別に強化するだけでなく、複数の防御層が連携して機能するような設計が不可欠です。また、LLMの内部構造に関する知識を利用して、LLM自体の脆弱性を緩和するような防御手法の開発が求められます。

具体的な実験結果の例

ClearHarmデータセットに対する実験では、既存の防御パイプラインの攻撃成功率が大幅に低下した一方で、STACK攻撃は高い成功率を維持しました。
少数のプロンプトによる分類器（Gemma2など）は、一定の効果を示しましたが、STACK攻撃によって容易に突破されました。
転移攻撃の実験では、ある防御パイプラインに対して開発されたSTACK攻撃が、別の防御パイプラインにも有効であることが示されました。

これらの実験結果は、既存の防御パイプラインが、STACK攻撃のような巧妙な攻撃に対して脆弱であり、LLMの安全性を確保するためには、より高度な防御戦略が必要であることを明確に示しています。

安全保障を強化するために：推奨される対策

LLMの安全性を高めるためには、攻撃者が防御を突破するために利用する脆弱性を理解し、それらを緩和するための具体的な対策を講じることが重要です。以下に、推奨される対策をいくつかご紹介します。

入力フィルタの強化

より高度な自然言語処理技術を活用し、有害コンテンツの検出精度を高めます。
あいまいな表現や隠れた意味を理解するために、コンテキスト情報を考慮します。
既知のパターンだけでなく、新たな攻撃手法にも対応できるよう、入力フィルタを定期的に更新します。

LLMの安全ガードレールの改善

LLMのトレーニングデータに有害なコンテンツをより多く含めることで、有害なコンテンツを生成する可能性を低減します。
LLMの出力に対する制約を強化し、有害なコンテンツの生成を抑制します。
LLMの内部状態を監視し、有害なコンテンツの生成を早期に検出します。

出力フィルタの強化

入力フィルタと同様に、より高度な自然言語処理技術を使用して、有害なコンテンツの検出精度を高めます。
コンテキスト情報を考慮することで、あいまいな表現や隠れた意味を理解します。
出力フィルタも定期的に更新し、最新の攻撃手法に対応できるようにします。

多層防御の導入

単一の防御層に依存するのではなく、複数の防御層を組み合わせることで、防御の堅牢性を高めます。例えば、入力フィルタ、LLMの安全ガードレール、出力フィルタなど、異なる種類の防御層を組み合わせることで、攻撃者が単一の脆弱性を悪用することを困難にすることができます。

継続的な評価と改善

防御パイプラインを定期的に評価し、新しい攻撃手法に対する脆弱性を特定します。
評価結果に基づいて、防御パイプラインを継続的に改善し、最新の攻撃手法に対応できるようにします。
セキュリティ研究者や専門家との連携を通じて、最新の脅威情報や防御技術を入手することが重要です。
補足情報（i）：セキュリティ研究者との連携は、自社だけでは見落としがちな脆弱性や、最新の攻撃トレンドを把握する上で非常に有効です。

これらの対策を講じることで、LLMのセキュリティを大幅に向上させ、より安全なAIシステムの構築に貢献できます。重要なのは、攻撃者の視点に立ち、常に防御を最適化し続けることです。

結論：LLMの安全な未来のために

　本論文では、大規模言語モデル(LLM)の安全性を脅かす新たな攻撃手法「STACK」を提案し、既存の防御パイプラインに対する脆弱性を検証しました。LLMは社会に大きな利益をもたらす可能性を秘めている一方で、悪用されるリスクも抱えています。STACK攻撃は、既存の防御機構を段階的に突破し、有害なコンテンツを生成できることを示しました。

　今後の研究では、STACK攻撃に対するより効果的な防御手法の開発が重要です。例えば、攻撃者がどの防御層を突破しようとしているかを特定できないようにすることや、LLM自体の安全性を高めるための新たなアプローチが必要です。また、防御パイプラインを自動的に評価し、改善するためのフレームワークの開発も重要です。

　LLMの安全性を確保することは、AI技術の健全な発展のために不可欠です。セキュリティ研究者、AI開発者、政策立案者などが協力して、最新の脅威情報や防御技術を入手し、連携していくことで、LLMの安全な未来を築き上げることが求められます。

　LLMの安全な未来のために、今後の研究開発に期待しましょう。