論文要約 重み演算でLLMを操る!革新的Steering手法を徹底解説 紹介論文今回紹介する論文はSteering Language Models with Weight Arithmeticという論文です。 この論文を一言でまとめるとLLMの新たな制御法「Contrastive Weight Steering... 2025.11.11 論文要約IT・プログラミング
論文要約 Logit-Gap Steering:LLMの脆弱性を突く効率的なJailbreak 紹介論文今回紹介する論文はLogit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Modelsという論文です。 この論文を一言でまとめ... 2025.07.03 論文要約IT・プログラミング