安全性評価

臨床対話の落とし穴：WER評価の限界とLLM活用

紹介論文今回紹介する論文はWER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogueという論文です。 ...

2025.11.24

論文要約IT・プログラミング

重み演算でLLMを操る！革新的Steering手法を徹底解説

紹介論文今回紹介する論文はSteering Language Models with Weight Arithmeticという論文です。この論文を一言でまとめるとLLMの新たな制御法「Contrastive Weight Steering...

2025.11.11

論文要約IT・プログラミング

LLM評価の新潮流！実用データセット解説

紹介論文今回紹介する論文はA Use-Case Specific Dataset for Measuring Dimensions of Responsible Performance in LLM-generated Textという論文で...

2025.10.26

論文要約IT・プログラミング

AI生成動画の「違和感」を解明！LLMでディープフェイクを見抜く

紹介論文今回紹介する論文はLearning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMsという論文です。この論文を一言でまとめるとAI生成動画の品質...

2025.09.30

論文要約IT・プログラミング

LLMの追従性を解剖！多面的なメカニズムと対策

紹介論文今回紹介する論文はSycophancy Is Not One Thing: Causal Separation of Sycophantic Behaviors in LLMsという論文です。この論文を一言でまとめるとLLM（大規...

2025.09.27

論文要約IT・プログラミング

MoEモデル制御術！Expert (De)ActivationでLLMを安全に

紹介論文今回紹介する論文はSteering MoE LLMs via Expert (De)Activationという論文です。この論文を一言でまとめるとMoEモデルの安全性と忠実性を高めるSteerMoEフレームワークを解説。特定のエキ...

2025.09.13

論文要約IT・プログラミング

MLLMの安全を守る！自己適応型データセット構築

紹介論文今回紹介する論文はSelf-adaptive Dataset Construction for Real-World Multimodal Safety Scenariosという論文です。この論文を一言でまとめるとMLLMの安全性...

2025.09.07

論文要約IT・プログラミング

LLMの安全性強化！ IMAGINEフレームワーク徹底解説

紹介論文今回紹介する論文はForewarned is Forearmed: Pre-Synthesizing Jailbreak-like Instructions to Enhance LLM Safety Guardrail to Po...

2025.08.29

論文要約IT・プログラミング

LLMの安全性向上へ！SDGO徹底解説

紹介論文今回紹介する論文はSDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Modelsという論文です。この論文を一...

2025.08.24

論文要約IT・プログラミング

AIエージェントは本当に安全？悪影響と対策を徹底解説！

紹介論文今回紹介する論文はUnintended Misalignment from Agentic Fine-Tuning: Risks and Mitigationという論文です。この論文を一言でまとめるとAIエージェントの安全性に関す...

2025.08.20

論文要約IT・プログラミング

安全性評価

臨床対話の落とし穴：WER評価の限界とLLM活用

重み演算でLLMを操る！革新的Steering手法を徹底解説

LLM評価の新潮流！実用データセット解説

AI生成動画の「違和感」を解明！LLMでディープフェイクを見抜く

LLMの追従性を解剖！多面的なメカニズムと対策

MoEモデル制御術！Expert (De)ActivationでLLMを安全に

MLLMの安全を守る！自己適応型データセット構築

LLMの安全性強化！ IMAGINEフレームワーク徹底解説

LLMの安全性向上へ！SDGO徹底解説

AIエージェントは 本当に安全？ 悪影響と対策を 徹底解説！

AIエージェントは本当に安全？悪影響と対策を徹底解説！