AI生成動画の「違和感」を解明！LLMでディープフェイクを見抜く

紹介論文
1. この論文を一言でまとめると
はじめに：巧妙化するAI生成動画とディープフェイク
DEEPTRACEREWARD：AIは動画のどこに「違和感」を感じるのか？
実験：LLMはディープフェイクの「違和感」をどこまで理解できるのか？
考察：人間とAIの「違和感」認識のギャップを埋めるには？
まとめ：AI生成動画の健全な発展に向けて

紹介論文

今回紹介する論文はLearning Human-Perceived Fakeness in AI-Generated Videos via Multimodal
LLMsという論文です。

https://arxiv.org/pdf/2509.22646v1.pdf

この論文を一言でまとめると

AI生成動画の品質向上とともに、巧妙化するディープフェイク。本記事では、AIが見抜く「違和感」に着目した論文を解説。データセット構築からモデル学習まで、最先端の研究をわかりやすく紹介し、読者が自身のプロジェクトに活かせる知見を提供します。

はじめに：巧妙化するAI生成動画とディープフェイク

近年、AI技術の急速な進歩により、まるで本物と見分けがつかないような動画が、AIによって生成されるようになりました。まるで魔法のような技術革新ですが、同時に、ディープフェイクと呼ばれる、悪意のある偽動画が拡散されるリスクも高まっています。

AI生成動画の現状：驚くべき進化の裏側

AI動画生成技術は、まさに日進月歩。例えば、Veo3、Sora、Pikaといった最先端のモデルは、数秒から数分程度の短い動画であれば、プロの映像クリエイターが作った作品と区別がつかないほどのクオリティを実現しています。これらの動画は、風景、人物、アニメーションなど、様々なコンテンツを、まるで現実世界を切り取ったかのように描き出すことができます。

しかし、この驚くべき進化の裏側で、悪意ある第三者がAI生成動画を悪用する事例も増加しています。著名人の偽スキャンダル、政治的なデマの拡散、詐欺広告など、その手口は巧妙化の一途をたどっており、社会全体を揺るがす深刻な問題となっています。

ディープフェイクがもたらす脅威：見過ごせないリスク

ディープフェイクは、個人や組織だけでなく、社会全体に深刻な影響を及ぼす可能性があります。

偽情報の拡散：事実とは異なる情報を拡散し、人々の判断を誤らせる可能性があります。
信用毀損：個人や組織の名誉を傷つけ、社会的信用を失墜させる可能性があります。
詐欺：金銭的な詐欺や個人情報の詐取に利用される可能性があります。
政治的混乱：選挙や政策決定に影響を与え、社会の分断を煽る可能性があります。

これらのリスクを軽減するためには、AI生成動画の「違和感」を検出し、真偽を見抜く技術が不可欠です。

AI生成動画対策の必要性：今、私たちがすべきこと

ディープフェイクの脅威に対抗するためには、私たち一人ひとりがAI生成動画に関する知識を深め、批判的な視点を持つことが重要です。また、技術的な対策も急務であり、AIが生成した動画を自動的に検出し、真偽を判定するシステムの開発が求められています。

本記事では、AI生成動画の「違和感」に着目し、その検出技術に関する最先端の研究を紹介します。読者の皆様が、AI生成動画の現状を理解し、その対策に貢献できる一助となれば幸いです。

DEEPTRACEREWARD：AIは動画のどこに「違和感」を感じるのか？

AI生成動画の品質が向上するにつれて、巧妙なディープフェイクを見抜くことがますます困難になっています。しかし、人間はAIが生成した動画に対して、どこか「違和感」を感じることがあります。このセクションでは、その「違和感」の正体を解明するために開発されたデータセット、DEEPTRACEREWARDについて詳しく解説します。

DEEPTRACEREWARDとは？

DEEPTRACEREWARDは、AI生成動画における人間の視覚的な違和感（deepfake traces）を詳細に分析するための、初の試みとなるデータセットです。従来の評価指標では捉えきれなかった、人間が感じる「不自然さ」を定量的に評価し、AIモデルがより自然な動画を生成する手助けをすることを目指しています。

データセットの特徴

詳細なアノテーション：4,300件以上の詳細なアノテーションが含まれており、3,300件の高品質な生成動画を対象としています。
多岐にわたる情報：各アノテーションは、自然言語による説明、違和感のある領域を囲むバウンディングボックス、正確な開始・終了タイムスタンプを提供します。
違和感のカテゴリ分類：アノテーションは、オブジェクトの消失、歪み、分裂、結合など、9つの主要なカテゴリに分類されます。
実写動画との比較：実写動画と比較することで、AI生成動画特有の「違和感」をより明確に捉えることができます。

アノテーション方法：人間の「違和感」を捉える

DEEPTRACEREWARDのアノテーションは、専門のアノテーターによって行われます。彼らは、動画をフレームごとに詳細に検査し、以下の情報を記録します。

バウンディングボックス：視覚的な異常を示す領域を空間的に特定します。
カテゴリタグ：deepfake traceのタイプ（例：歪み、ぼかし、結合など）を反映する構造化されたカテゴリタグを追加します。
自然言語による説明：各deepfake traceのコンテキストと性質を説明する自然言語の説明を記述します。

これらのアノテーションを通じて、人間の視覚的な「違和感」が詳細に記録され、データセットとして活用されます。

主要なカテゴリ：9つの「違和感」のパターン

DEEPTRACEREWARDでは、AI生成動画に現れる「違和感」を9つの主要なカテゴリに分類しています。それぞれのカテゴリについて、具体的な例を交えながら解説します。

1. オブジェクトの歪み（Object Distortion）

オブジェクトが不自然な形状の歪みを示すケースです。例えば、やかんが溶けているように見えたり、腕がゴムのように曲がったりするなどが該当します。

2. 突然のぼかし（Sudden Blurring）

視覚的な劣化が突然発生するケースです。子犬が突然ぼやけたり、会話中に顔の輪郭がぼやけたりするなどが該当します。

3. オブジェクトの軌道（Object Trajectory）

オブジェクトが不自然な経路で移動するケースです。列車の遮断機が誤って前方にスライドしたり、ボールが空中で急に曲がったりするなどが該当します。

4. 冗長なオブジェクト（Redundant Object）

余分な要素が現れるケースです。ジェスチャー中に3本目の腕が現れたり、誰かが走っている背景に余分な木が現れたりするなどが該当します。

5. オブジェクトの結合（Object Merging）

明確なオブジェクトが融合するケースです。2匹のオッターが1つの形に溶け込んだり、2人のダンサーが見た目上区別がつかなくなったりするなどが該当します。

6. オブジェクトの分裂（Object Splitting）

単一のオブジェクトが複数の部分に分割されるケースです。ゴールキーパーの体が動作中に2つに分裂するなどが該当します。

7. 背景の歪み（Background Distortion）

背景が非現実的に歪むケースです。人が歩くと駐車中の車が伸びたり、壁が波打つなどが該当します。

8. オブジェクトの消失（Object Disappearance）

目に見える要素が突然消えるケースです。人が歩いている途中で消えたり、サッカーボールが蹴られている途中で消えたりするなどが該当します。

9. 予期しない動き（Unexpected Move）

静的なオブジェクトが不可解な動きをするケースです。ビールグラスが勝手に滑ったり、椅子が動いたりするなどが該当します。

DEEPTRACEREWARDがもたらす可能性

DEEPTRACEREWARDは、AI生成動画の「違和感」を分析するための貴重なリソースです。このデータセットを活用することで、AIモデルはより自然でリアルな動画を生成できるようになり、ディープフェイク対策にも貢献することが期待されます。

次のセクションでは、DEEPTRACEREWARDデータセットを用いたLLMの性能評価実験について詳しく解説します。

実験：LLMはディープフェイクの「違和感」をどこまで理解できるのか？

前セクションでは、AI生成動画に人間が感じる「違和感」を詳細に分析したDEEPTRACEREWARDデータセットについて解説しました。このセクションでは、このデータセットを用いて、LLM（大規模言語モデル）がディープフェイクの「違和感」をどこまで理解できるのかを評価した実験について、詳しく見ていきましょう。

実験設定：LLMは、どこまでディープフェイクを見抜けるのか？

本研究では、DEEPTRACEREWARDデータセットを用いて、13種類の最新のマルチモーダルLLM（Multimodal Language Models）の性能を評価しています。マルチモーダルLLMとは、テキストだけでなく、画像や動画などの複数の種類のデータを理解し、処理できるAIモデルのことです。

評価対象となった主なLLMは以下の通りです。

GPT-5、GPT-4.1
Gemini 2.5 Pro、Gemini 2.5 Flash
Video-LLaVa 7B
LLaVa-One-Vision 7B
Phi-3.5-Vision、Phi-4-Vision
Qwen 2 VL 7B、Qwen 2.5 VL 7B/32B/72B
VideoLLaMA3 7B

これらのLLMに対し、VLMEvalKitというツールを用いて、厳密な性能評価を行っています。VLMEvalKitは、様々なLLMの性能を公平かつ再現性のある形で評価するためのツールキットです。

評価指標：何を基準にLLMの性能を測るのか？

LLMがディープフェイクをどれだけ正確に見抜けるのかを評価するために、以下の7つの指標が用いられています。

Accuracy（精度）：偽動画と実動画全体の分類性能。すべての動画に対して、AIが正しく本物か偽物かを判断できた割合を示します。
Fake Accuracy（偽動画精度）：偽動画全体の分類性能。偽物の動画に対して、AIが正しく偽物だと判断できた割合を示します。
Real Accuracy（実動画精度）：実動画全体の分類性能。本物の動画に対して、AIが正しく本物だと判断できた割合を示します。
Explanation（説明の質）：生成された説明に対するGPT-4.1の判断スコア。AIが生成した説明文が、どれだけ正確で人間にとって理解しやすいかを評価します。
BBox IoU（バウンディングボックスのIoU）：ディープフェイクの痕跡がある領域を囲むバウンディングボックス（矩形）の生成品質を評価するIntersection over Union（IoU）。AIが特定した領域が、実際に「違和感」のある場所とどれだけ重なっているかを示します。
BBox Distance（バウンディングボックスの距離）：予測されたバウンディングボックスと、人間がアノテーションした正解のバウンディングボックスの中心点間のユークリッド距離。AIが特定した領域の中心が、正解の場所からどれだけ離れているかを示します。
Time Distance（時間の距離）：ディープフェイクの痕跡が始まる予測時間と、人間がアノテーションした正解時間との差。AIがいつから「違和感」が生じていると判断したかが、実際の時間とどれだけずれているかを示します。

Accuracy, Fake Accuracy, Real Accuracyは値が高いほど良く、BBox Distance, Time Distanceは値が低いほど良いと評価できます。

ベースラインモデルとの比較：LLMは、どこが苦手なのか？

実験の結果、既存のLLM（GPT-5など）は、全体的な性能が37%を下回るという結果になりました。これは、LLMがまだディープフェイクを正確に見抜くのが難しいことを示しています。

特に、Time Distance（時間の距離）の指標が軒並み悪い結果となっており、LLMは動画内の時間的な変化を捉えるのが苦手であることが示唆されました。つまり、いつから「違和感」が生じているのかを正確に判断するのが難しいということです。

学習済みモデルの結果：DEEPTRACEREWARDで学習すると、LLMの性能は向上するのか？

DEEPTRACEREWARDデータセットで学習させたLLM（VideoLLaMa 3に基づく7Bモデル）は、GPT-5を大きく上回り、70.2%という高い精度を達成しました。この結果から、DEEPTRACEREWARDデータセットがLLMの性能向上に大きく貢献することがわかります。

特に、Explanation（説明の質）の向上が著しく、LLMはより正確で人間にとって理解しやすい説明文を生成できるようになりました。これは、DEEPTRACEREWARDデータセットに含まれる詳細なアノテーションが、LLMの学習に役立っていることを示唆しています。

しかし、Time Distance（時間の距離）の指標は依然として改善の余地があり、時間的な情報の扱いがLLMにとって難しい課題であることが改めて確認されました。

実験結果から見えてきたこと：LLMは「違和感」を理解し始めているが…

今回の実験から、LLMはDEEPTRACEREWARDデータセットを用いることで、ディープフェイクの「違和感」を理解し、見抜く能力を向上させることが示されました。しかし、時間的な情報の扱いなど、まだ改善すべき点も残されています。

次のセクションでは、これらの実験結果を踏まえ、人間とAIの「違和感」認識のギャップを埋めるためには、今後どのような研究が必要なのかを考察していきます。

考察：人間とAIの「違和感」認識のギャップを埋めるには？

本セクションでは、論文「Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs」の実験結果から見えてきた課題と、今後の研究の方向性について考察します。人間とAIの「違和感」認識のギャップを埋め、より信頼性の高い動画生成技術を実現するための展望をまとめます。

実験結果から見えてきた課題

実験を通して、既存のLLM（大規模言語モデル）は、ディープフェイク動画内の微細な「違和感」（deepfake traces）を検出する能力において、人間の視覚的認識にまだ及ばないことが明らかになりました。特に、以下の点が課題として挙げられます。

時間情報の扱い: AIは、動画内のオブジェクトの動きや変化といった時間的な情報を捉えることが苦手です。
抽象的な概念の理解: 人間は、経験や知識に基づいて動画の不自然さを判断できますが、AIはそうした抽象的な概念の理解が難しいです。
総合的な判断力: 人間は、動画全体を見て総合的に判断できますが、AIは部分的な情報に偏ってしまう傾向があります。

具体的には、AIは説明の生成や空間的な情報の特定は比較的得意ですが、時間的な情報の特定や、複数の要素を組み合わせて判断することが苦手な傾向が見られました。

今後の研究の方向性

これらの課題を踏まえ、今後の研究では以下の方向性を検討していく必要があります。

時間情報を効果的に扱えるモデルの開発: LSTMやTransformerなどの系列モデルを改良し、動画内の時間的な変化をより正確に捉えられるようにする必要があります。
より詳細なアノテーションを持つデータセットの構築: DEEPTRACEREWARDデータセットをさらに拡充し、時間的な情報や抽象的な概念に関するアノテーションを追加することで、AIの学習を促進できます。
人間とAIの認識ギャップを埋める新しい学習方法の開発: 人間の視覚的認識プロセスを模倣した学習方法や、AIに知識や経験を付与する学習方法などを検討する必要があります。
マルチモーダルなアプローチの推進: 視覚情報だけでなく、聴覚情報やその他の情報源も活用することで、より総合的な判断が可能になります。例えば、音声の不自然さや、動画と音声のずれなどを検知することで、ディープフェイクの検出精度を向上させることができます。

より信頼性の高い動画生成技術を実現するための展望

人間の視覚的認識をより正確にモデル化することで、より信頼性の高い動画生成技術の実現が期待できます。これにより、ディープフェイクの悪用を防ぎ、AI生成動画の健全な発展に貢献できるでしょう。

例えば、以下のような応用が考えられます。

動画の信頼性評価システム: AIが動画の信頼性を自動的に評価し、ユーザーに警告を発するシステムを構築できます。
ディープフェイク検出ツールの開発: 専門家でなくても、簡単にディープフェイクを検出できるツールを開発できます。
安全な動画生成AIの開発: ディープフェイクを生成しないように設計された、安全な動画生成AIを開発できます。

補足：
この考察は、DEEPTRACEREWARDデータセットを用いた実験結果に基づいています。今後の研究や技術開発によって、AIの「違和感」認識能力はさらに向上する可能性があります。

まとめ：AI生成動画の健全な発展に向けて

本記事では、AI生成動画の「違和感」を解明する最先端の研究として、DEEPTRACEREWARDデータセットに着目した論文の内容を解説しました。最後に、本記事のまとめとして、DEEPTRACEREWARDデータセットの貢献と今後の展望を改めて強調し、AI生成動画技術の健全な発展に貢献するためのメッセージを伝えます。

DEEPTRACEREWARDデータセットの貢献

DEEPTRACEREWARDは、AI生成動画における人間の視覚的な違和感を分析するための貴重なリソースとなります。主な貢献は以下の3点です。

* AI生成動画の品質向上に不可欠な、人間の視覚的認識に関する詳細なデータを提供
* LLM（大規模言語モデル）のdeepfake trace検出能力を客観的に評価するための共通ベンチマークを確立
* 人間とAIの認識におけるギャップを埋め、より自然で信頼性の高い動画生成を促進するための研究基盤を提供

今後の展望

DEEPTRACEREWARDデータセットを活用した今後の研究により、以下の発展が期待されます。

* 時間情報をより効果的に扱える、高度な動画生成モデルの開発
* 人間の視覚的直感とAIの認識を統合する、新しい学習パラダイムの創出
* 視覚情報に加え、聴覚情報やコンテキスト情報も活用した、より包括的なディープフェイク検出技術の確立

これらの発展は、AI生成動画技術の信頼性を高め、悪用リスクを軽減することに繋がります。

AI生成動画技術の健全な発展に向けて

AI生成動画技術は、エンターテイメント、教育、ビジネスなど、社会に大きな利益をもたらす可能性を秘めています。しかし、その一方で、ディープフェイク技術の悪用による誤情報拡散、プライバシー侵害、信頼毀損といったリスクも存在します。

これらのリスクを最小限に抑え、AI生成動画技術の健全な発展を促進するためには、以下の取り組みが不可欠です。

* 研究者、開発者は、倫理的な考慮に基づき、悪用防止策を組み込んだ技術開発を推進する
* 政策立案者は、技術の進歩に合わせた適切な法規制を整備し、悪用行為を抑制する
* 教育機関やメディアは、情報リテラシー教育を強化し、一般の人々がディープフェイクを見抜き、批判的に情報を受け止められるようにする
* 技術開発者、専門家、そして一般ユーザーを含むすべての関係者が、AI生成動画技術の倫理的な利用について議論し、共通認識を形成する

本記事が、AI生成動画技術の健全な発展に向けた議論を喚起し、より良い未来を築くための一助となれば幸いです。