論文要約 Logit-Gap Steering:LLMの脆弱性を突く効率的なJailbreak 紹介論文今回紹介する論文はLogit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Modelsという論文です。 この論文を一言でまとめ... 2025.07.03 論文要約IT・プログラミング
論文要約 LLMの防御を突破する:STACK攻撃とは? 紹介論文今回紹介する論文はSTACK: Adversarial Attacks on LLM Safeguard Pipelinesという論文です。 この論文を一言でまとめると本論文では、大規模言語モデル(LLM)の安全性を脅かす新たな攻撃... 2025.07.03 論文要約IT・プログラミング
論文要約 PhantomHunter: 見えざるLLM生成 テキストの検出 紹介論文今回紹介する論文はPhantomHunter: Detecting Unseen Privately-Tuned LLM-Generated Text via Family-Aware Learningという論文です。 この論文を一... 2025.06.19 論文要約IT・プログラミング