安全性評価

論文要約

MLLMの安全を守る!自己適応型データセット構築

紹介論文今回紹介する論文はSelf-adaptive Dataset Construction for Real-World Multimodal Safety Scenariosという論文です。 この論文を一言でまとめるとMLLMの安全性...
論文要約

LLMの安全性強化! IMAGINEフレームワーク徹底解説

紹介論文今回紹介する論文はForewarned is Forearmed: Pre-Synthesizing Jailbreak-like Instructions to Enhance LLM Safety Guardrail to Po...
論文要約

LLMの安全性向上へ!SDGO徹底解説

紹介論文今回紹介する論文はSDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Modelsという論文です。 この論文を一...
論文要約

AIエージェントは 本当に安全? 悪影響と対策を 徹底解説!

紹介論文今回紹介する論文はUnintended Misalignment from Agentic Fine-Tuning: Risks and Mitigationという論文です。 この論文を一言でまとめるとAIエージェントの安全性に関す...
論文要約

LLMの安全性評価:中国語メンタルヘルス対話への挑戦

紹介論文今回紹介する論文はExploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judgeという論文です。 こ...