敵対的攻撃

論文要約

LLMの安全性強化! IMAGINEフレームワーク徹底解説

紹介論文今回紹介する論文はForewarned is Forearmed: Pre-Synthesizing Jailbreak-like Instructions to Enhance LLM Safety Guardrail to Po...
論文要約

RAGシステムの脆弱性:自己修正を無効化する新攻撃

紹介論文今回紹介する論文はDisabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoningという論文です。 この論文を一...
論文要約

T-Detect:AI生成テキストを強固に検出する新技術

紹介論文今回紹介する論文はT-Detect: Tail-Aware Statistical Normalization for Robust Detection of Adversarial Machine-Generated Textとい...