LLMの安全性評価：ファインチューニングの落とし穴

紹介論文
1. この論文を一言でまとめると
イントロダクション：安全性の危機と評価の難しさ
1. 安全性評価の信頼性と再現性の課題
2. 本研究の目的と概要
背景：ファインチューニングと安全性評価の現状
実験設定：モデル、データセット、評価方法
実験結果：安全性評価のばらつきの原因を徹底解剖
結論：より安全なLLM開発に向けて
1. 今後の安全性評価研究に必要な要素
2. 安全なLLM開発に向けた具体的な提言

紹介論文

今回紹介する論文はFine-Tuning Lowers Safety and Disrupts Evaluation Consistencyという論文です。

https://arxiv.org/pdf/2506.17209v1.pdf

この論文を一言でまとめると

本研究では、LLMのファインチューニングが安全性評価の一貫性を損なうことを実験的に示しました。ランダムシード、温度設定、データセットなど、些細な変更が評価結果に大きな影響を与えることを明らかにし、より堅牢な安全性評価手法の必要性を提言します。

イントロダクション：安全性の危機と評価の難しさ

LLM（大規模言語モデル）を特定の用途に最適化するファインチューニングは、今や一般的な手法です。しかし、ファインチューニングは、LLMの安全性を低下させる危険な落とし穴となりうることをご存知でしょうか？有害なコンテンツを含まないデータセットを使用した場合でも、安全機構が弱まる可能性があるのです。

これは、LLMが様々な分野で広範に利用されるようになった現代において、看過できない問題です。なぜなら、悪意がなくても、安全性の低いLLMをデプロイしてしまう開発者が現れる可能性があるからです。さらに、悪意のある攻撃者は、この脆弱性を悪用して安全ガードレールを簡単に回避できてしまいます。

安全性評価の信頼性と再現性の課題

この問題を解決するには、まず、信頼性と再現性のある安全性評価を確立する必要があります。しかし、LLMの安全性評価は、以下のような要因により、非常に難しいのが現状です。

実験手順の些細な変更（例：ランダムシードの変更）
LLM自体の確率的な性質
異なるパラメータ設定（例：学習率、エポック数、生成温度）

これらの要因が、安全性評価の結果に大きなばらつきをもたらす可能性があるのです。つまり、同じモデルを評価しても、異なる結果が出てしまうことがあるということです。

本研究の目的と概要

そこで本研究では、安全性ベンチマークが、実験手順の些細な変更やLLMの確率的な性質に対して、どれだけロバストであるかを調査しました。具体的には、以下の点に着目しました。

ランダムシードを変えた場合、評価結果はどの程度変わるのか？
生成時の温度設定は、評価結果にどのような影響を与えるのか？
ファインチューニングに使用するデータセットの内容は、安全性にどのような影響を与えるのか？

初期実験の結果、ファインチューニングの設定に一見取るに足らない変更を加えただけでも、安全性評価の結果に驚くほどのばらつきが生じることが明らかになりました。この結果は、今後の研究者がLLMの安全性を評価する上で、非常に重要な意味を持ちます。

ファインチューニングでLLMの安全性が低下する可能性があることはわかりましたが、具体的にどのような対策を講じれば良いのでしょうか？

本記事では、この問題についてさらに深く掘り下げ、安全なLLM開発に向けた具体的な提言を行います。LLMの安全性を確保するために、ぜひ最後までお読みください。

背景：ファインチューニングと安全性評価の現状

前のセクションでは、LLMの安全性における課題と、それを評価する際の難しさについて説明しました。このセクションでは、ファインチューニングがLLMの安全性に与える影響に関する既存の研究を概観し、安全性評価手法の限界を明らかにします。これにより、読者は本研究の背景を理解し、その必要性を認識することができます。

ファインチューニングと安全性低下のメカニズム

ファインチューニングがLLMの安全性を低下させる原因はいくつか考えられます。ここでは、その主要なメカニズムを解説します。

ファインチューニングによる安全機構の除去：Qi et al. (2024)やLyu et al. (2024)などの研究で指摘されているように、一見無害なデータセットを用いたファインチューニングであっても、LLMの安全機構が損なわれる可能性があります。これは、モデルが新しいタスクに適応する過程で、以前に学習した安全に関する知識を「忘れてしまう」ためと考えられます。
敵対的ファインチューニング：Lermen and Rogers-Smith (2024)は、敵対的なデータセットを使用することで、LLMを比較的容易に「ジェイルブレイク」できることを示しました。また、Yang et al. (2024)は、「シャドウアライメント」という概念を導入し、少数の悪意ある例を用いて安全対策を無効化できることを明らかにしました。さらに、Bowen et al. (2024)は、トレーニングデータセットに有害な例が少量でも含まれている場合、安全性が損なわれる可能性があることを指摘しています。
非敵対的ファインチューニング：Betley et al. (2025)は、「創発的ミスアライメント」という概念を提唱し、特定の目的（例えば、安全でないコードの生成）のためにファインチューニングされたLLMが、関連性の低い他のタスクにおいても安全性が低下する可能性があることを示しました。He et al. (2024)は、リストや箇条書き、数式など特定の形式を含むデータセットが、安全性を低下させやすい傾向があることを示唆しています。

既存の安全性評価手法の限界

LLMの安全性評価は、その出力に有害なコンテンツが含まれていないかを判断することを目的としています。しかし、既存の評価手法にはいくつかの限界があります。

評価指標の曖昧さ：安全性評価には、拒否率（有害な質問に対して回答を拒否する割合）や、有害コンテンツの生成率などが用いられますが、これらの指標は必ずしもLLMの安全性を完全に反映しているとは限りません。例えば、回答を拒否するだけで、なぜその質問が有害なのかを説明しないLLMは、ユーザーにとって不親切かもしれません。
評価環境のばらつき：LLMの生成するテキストは確率的であるため、同じプロンプトを与えても、毎回異なる出力が得られます。また、評価に使用するプロンプトや、評価者の判断基準によっても、評価結果が変動する可能性があります。
評価の再現性の低さ：Qi et al.(2024)の研究では、ファインチューニングのエポック数を増やしても、有害性の割合はわずかに減少する程度であることが報告されています。しかし、Lyu et al.(2024)は、ファインチューニングのエポック数が増えるにつれて有害性が増加する傾向を観測しています。このように、実験設定や使用するデータセットによって、評価結果が大きく異なる場合があります。

近年、MedSafetyBench (Han et al., 2024) や、Weapons of Mass Destruction Proxy (WMDP) dataset (Li et al., 2024) のように、特定の有害性に着目したデータセットが開発されています。また、SORRY-Bench (Xie et al., 2025)のように、複数のリスクカテゴリーを網羅的に評価できる、より包括的なベンチマークも登場しています。

法規制と業界の動向

LLMの安全性に関する法規制の議論が高まっており、業界でも安全対策への投資が進んでいます。しかし、OpenAIのような企業による取り組みは、透明性の欠如が課題となっています。

まとめ

このセクションでは、ファインチューニングがLLMの安全性を低下させるメカニズムと、既存の安全性評価手法の限界について概観しました。次のセクションでは、これらの課題を踏まえ、本研究で使用した実験設定について詳しく解説します。

実験設定：モデル、データセット、評価方法

本セクションでは、実験の信頼性を高めるため、使用したモデル、データセット、評価指標、実験手順を明確に解説します。これらの詳細な情報は、読者が実験の信頼性を評価し、結果の解釈を深める上で不可欠です。

使用モデル

MetaのLlama-3.2-1Bモデル
MistralAIのMistral-7B-v0.3モデル
GPT-4o-mini（クローズドソースモデル、結果は付録Aで提示）

これらのモデルを選定した主な理由は以下の通りです。

オープンソースモデルであること
比較的小規模で、消費者向けハードウェアでのファインチューニングが容易であること

データセット

databricks-dolly-15k（Dolly）
StanfordのAlpacaモデルのファインチューニングに使用されたデータセット（Alpaca）

これらのデータセットを選定した主な理由は以下の通りです。

広く使用されている英語の命令データセットであること
Qi et al. (2024)から入手可能な、安全関連の質問を除外したバージョンを使用し、ファインチューニングの効果を分離すること

2つのデータセット間でサンプルサイズを統一するため、Alpacaのランダムなサブセットを使用し、両方のデータセットが同じ数の命令-応答ペア（N = 14,624）を含むように調整しました。

ファインチューニングの詳細

実験では、以下の設定でファインチューニングを実施しました。

4ビット量子化でモデルをロード
LoRA（Low-Rank Adaptation）ファインチューニングを使用
バッチサイズ：64
学習率：2e-5
AdamW-8bitオプティマイザ

各モデルを5エポックでファインチューニングし、各エポックでモデルチェックポイントを保存しました。また、異なるランダムシードを使用して、各ファインチューニング実行を5回繰り返しました。すべての実験はA100 GPUで実行されています。

安全性評価指標

ベースモデルとファインチューニングされたモデルの評価には、SORRY-Benchフレームワークを使用しました (Xie et al., 2025)。SORRY-Benchを選定した理由は、以下の通りです。

最新かつ包括的なベンチマークであり、10個の以前の安全性ベンチマークを組み合わせ、拡張したものであること
ヘイトスピーチ、潜在的に不適切なトピック、犯罪と不法行為の支援、資格のないアドバイスなど、4つの高レベルドメインに集約された44の微細なリスクカテゴリを含むこと

各カテゴリについて、人間参加型の手法を通じて10個のプロンプトがコンパイルされ、合計440個のクラスバランスの取れた安全でない指示が生成されました。評価は、ベンチマークの作成者によって提供された評価者を使用して自動的に実行されます：fulfill/refusalカテゴリで手動で注釈が付けられた2,640ペア（安全でないプロンプト、LLM応答）のセットでファインチューニングされたMistral-7b-instruct-v0.2。

この評価モデルは、元の評価実験で人間の注釈との81％の一致（コーエンのカッパ）を示しました。実装では、評価者LLMは4ビット量子化でロードされ、ゼロ温度で実行されます。

すべてのモデルについて、temperature = 0とtemperature = 0.7の両方で応答を生成しました（最小pサンプリングはp = 0.1）。温度= 0.7の実験を5回繰り返し、非ゼロ（非決定論的）温度での分散をより良く理解しました。

毒性測定

ヘイトスピーチの生成に焦点を当てたSORRY-Benchプロンプトのサブセットについて、要求の充足の代替手段として出力の毒性も計算しました。この分析のために、GoogleのコンテンツモデレーションツールであるPerspective APIを使用しました。APIは、入力テキストが読者に有害であると感じられる確率を表す0から1のスコアを提供します。

実験の再現性を高めるための実践的なTips

すべてのパラメータ設定、ランダムシード、データセットのバージョンなどを詳細に記録する
計算リソースが限られている場合でも、複数のランダムシードで実験を繰り返すことで、結果の信頼性を高める

実験結果：安全性評価のばらつきの原因を徹底解剖

LLMの安全性評価における信頼性の低さは、開発者にとって深刻な課題です。本セクションでは、前セクションで述べた実験設定に基づき、詳細な分析結果を提示します。特に、ファインチューニングのランダム性、温度設定、データセットの内容が安全性評価に与える影響を明らかにします。これらの要因を理解することで、より堅牢な評価手法の開発に貢献できるでしょう。

単一モデルでの再現性：評価の安定性を検証

まず、同一モデルに対して繰り返し安全性評価を行った場合、結果がどれほど安定しているかを検証しました。具体的には、ベースモデルとファインチューニング後のモデルに対し、同一の入力プロンプトと設定で複数回評価を行い、結果のばらつきを測定しました。

結果として、ファインチューニングされたモデルのばらつきは、ベースモデルよりも大きいことがわかりました。つまり、ファインチューニングによってモデルの安全性が低下するだけでなく、評価結果そのものの信頼性も損なわれる可能性があるということです。これは、開発者がモデルの安全性を判断する際に、単一の評価結果に過度に依存すべきではないことを示唆しています。

たとえ同じモデルを評価する場合でも、結果にはある程度のランダム性が存在します。このランダム性は、評価者の判断、モデルの内部状態、生成されるテキストのわずかな違いなど、様々な要因によって生じます。そのため、開発者はモデルの安全性を評価する際に、複数回の評価を行い、結果の平均値とばらつきを考慮する必要があります。

ランダムシードによる再現性：トレーニングの偶然性を考慮

次に、ファインチューニングにおけるランダムシードの影響を調査しました。同じデータセット、同じパラメータ設定でファインチューニングを行った場合でも、ランダムシードが異なると、モデルの安全性にばらつきが生じる可能性があります。これは、トレーニングプロセスにおける初期値やデータのシャッフル順序が異なるためです。

実験の結果、ファインチューニングは安全性を低下させるという一般的な傾向は、ランダムシードに関わらず確認されました。しかし、具体的な安全性の低下幅は、ランダムシードによって異なり、モデルによっては安全性が大きく低下するものもあれば、そうでないものもありました。

特に、生成時の温度設定（Temperature）が0の場合、評価結果のばらつきはランダムシードの違いのみに起因します。一方、より現実的なシナリオである温度設定が0.7の場合、トレーニングプロセスと生成プロセスのランダム性が複合的に作用し、ばらつきがさらに大きくなることが確認されました。

温度設定（Temperature）が高いほど、モデルの出力のランダム性が高まります。創造的なテキストを生成するのに役立つ一方、有害なコンテンツを生成するリスクも高まります。

温度の影響：生成の多様性と安全性

温度設定は、モデルがテキストを生成する際のランダム性を制御するパラメータです。温度が高いほど、モデルはより多様なテキストを生成しますが、同時に有害なコンテンツを生成するリスクも高まります。そのため、安全性評価においては、様々な温度設定でモデルを評価し、最も安全でない条件下での性能を把握する必要があります。

実験の結果、Llamaベースのモデルでは、温度が高いほど有害性が高くなる傾向があることがわかりました。これは、温度が高いほど、モデルがより攻撃的なプロンプトに応答しやすくなるためと考えられます。一方、Mistralベースのモデルでは、温度と有害性の間に明確な相関関係は見られませんでした。これは、モデルのアーキテクチャやトレーニングデータセットの違いによるものと考えられます。

なぜLlamaベースのモデルとMistralベースのモデルで、温度の影響が異なるのですか？モデルのアーキテクチャ、トレーニングデータセット、ファインチューニングの方法など、様々な要因が考えられます。

ファインチューニングの影響：データセットの内容と形式に着目

ファインチューニングが安全性を低下させる原因として、データセットの内容とファインチューニングのプロセス自体のどちらがより重要なのかを検証しました。具体的には、モデル自身が生成したデータセット（自己生成データセット）と、人間が作成したデータセットでファインチューニングを行い、結果を比較しました。

実験の結果、自己生成されたデータセットでファインチューニングすると、人間が作成したデータセットでファインチューニングするよりも、有害性が大幅に低下することがわかりました。これは、ファインチューニングのプロセス自体よりも、データセットの内容（または形式）が安全性の低下に大きく影響していることを示唆しています。

この結果は、

結論：より安全なLLM開発に向けて

本研究では、LLMのセキュリティ脆弱性を理解するために、厳格で原則に基づいた安全性評価アプローチの必要性を強調しました。繰り返し測定、ファインチューニング中のランダムシード、データセットの内容、エポック数など、些細と思われる要因が安全性評価に与える影響を詳細に分析しました。その結果、これらの要因が評価結果に大きなばらつきをもたらし、ファインチューニングが安全性を低下させるだけでなく、評価の一貫性そのものを損なう可能性があることが明らかになりました。

今後の安全性評価研究に必要な要素

より安全なLLMを開発するために、以下の要素を提案します。

体系的なアプローチ: 実験を行う際には、一度に1つの変数のみを変更し、他の要因を厳密にコントロールすることで、影響を正確に特定します。
複数回の実行: ランダムな変動を推定するために、異なるランダムシードを用いて実験を複数回繰り返すことが不可欠です。これにより、結果の信頼性を高め、過剰な一般化を防ぎます。
パラメータの網羅的な評価: ユーザーが利用できるすべての生成パラメータ（温度、サンプリング方法など）について、安全性を評価する必要があります。極端な値の組み合わせも考慮することで、潜在的な脆弱性を明らかにします。
拒否以外の評価: LLMが有害なプロンプトを拒否した場合だけでなく、応答の内容自体の有害性を評価する必要があります。毒性スコアやその他の指標を用いて、潜在的なリスクを定量化します。
オープンソースモデルの活用: クローズドソースモデルは、内部の仕組みが不透明であるため、安全性に関する体系的な研究を困難にします。オープンソースモデルを使用することで、より透明性の高い評価が可能になります。

安全なLLM開発に向けた具体的な提言

これらの要素を踏まえ、安全なLLM開発に向けて以下の提言を行います。

ファインチューニング時の安全性意識: 開発者は、ファインチューニングを行う際に、安全性の低下を常に意識し、データセットの選択やパラメータ設定に慎重に取り組む必要があります。
信頼性の高い評価手法の採用: 安全性評価を行う際には、本研究で明らかになったばらつきを考慮し、信頼性の高い評価手法を用いることが重要です。複数の評価指標を組み合わせ、異なる視点から安全性を検証します。
実験結果の詳細な報告: 研究者は、実験結果を詳細に報告し、使用したモデル、データセット、パラメータ設定、評価指標などを明確に記述することで、再現性を高める必要があります。

LLMの安全性は、私たち全員に関わる重要な課題です。本記事で得られた知見を参考に、より安全なLLMの開発・利用にご協力ください。