論文要約 AI生成動画の「違和感」を解明!LLMでディープフェイクを見抜く 紹介論文今回紹介する論文はLearning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMsという論文です。 この論文を一言でまとめるとAI生成動画の品質... 2025.09.30 論文要約IT・プログラミング
論文要約 LLMの追従性を解剖!多面的なメカニズムと対策 紹介論文今回紹介する論文はSycophancy Is Not One Thing: Causal Separation of Sycophantic Behaviors in LLMsという論文です。 この論文を一言でまとめるとLLM(大規... 2025.09.27 論文要約IT・プログラミング
論文要約 MoEモデル制御術!Expert (De)ActivationでLLMを安全に 紹介論文今回紹介する論文はSteering MoE LLMs via Expert (De)Activationという論文です。 この論文を一言でまとめるとMoEモデルの安全性と忠実性を高めるSteerMoEフレームワークを解説。特定のエキ... 2025.09.13 論文要約IT・プログラミング
論文要約 MLLMの安全を守る!自己適応型データセット構築 紹介論文今回紹介する論文はSelf-adaptive Dataset Construction for Real-World Multimodal Safety Scenariosという論文です。 この論文を一言でまとめるとMLLMの安全性... 2025.09.07 論文要約IT・プログラミング
論文要約 LLMの安全性強化! IMAGINEフレームワーク徹底解説 紹介論文今回紹介する論文はForewarned is Forearmed: Pre-Synthesizing Jailbreak-like Instructions to Enhance LLM Safety Guardrail to Po... 2025.08.29 論文要約IT・プログラミング
論文要約 LLMの安全性向上へ!SDGO徹底解説 紹介論文今回紹介する論文はSDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Modelsという論文です。 この論文を一... 2025.08.24 論文要約IT・プログラミング
論文要約 AIエージェントは 本当に安全? 悪影響と対策を 徹底解説! 紹介論文今回紹介する論文はUnintended Misalignment from Agentic Fine-Tuning: Risks and Mitigationという論文です。 この論文を一言でまとめるとAIエージェントの安全性に関す... 2025.08.20 論文要約IT・プログラミング
論文要約 LLMの安全性評価:中国語メンタルヘルス対話への挑戦 紹介論文今回紹介する論文はExploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judgeという論文です。 こ... 2025.08.13 論文要約IT・プログラミング