安全性

論文要約

推論モデルは本当に安全?バイアスのリスクを徹底検証

紹介論文今回紹介する論文はIs Reasoning All You Need? Probing Bias in the Age of Reasoning Language Modelsという論文です。 この論文を一言でまとめると本研究では、...
論文要約

LLMの価値観を認知モデルで解釈する

紹介論文今回紹介する論文はInside you are many wolves: Using cognitive models to interpret value trade-offs in LLMsという論文です。 この論文を一言でまと...
論文要約

LLMの安全性評価: ファインチューニングの落とし穴

紹介論文今回紹介する論文はFine-Tuning Lowers Safety and Disrupts Evaluation Consistencyという論文です。 この論文を一言でまとめると本研究では、LLMのファインチューニングが安全性...
論文要約

LLMの安全性を高めるLoX: 低ランク外挿による革新的な手法

紹介論文今回紹介する論文はLoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuningという論文です。 この論文を一言でまとめると本記事では、LLMの安全性にお...
論文要約

LLMの制御を革新!INSTABOOSTで安全性を向上

紹介論文今回紹介する論文はInstruction Following by Boosting Attention of Large Language Modelsという論文です。 この論文を一言でまとめるとLLMの制御におけるlatent ...
論文要約

AIは迷子になる?思考を自己評価できるのか徹底検証

紹介論文今回紹介する論文はHow Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?という論文です。 この論文を一言でまとめると本研究では、大規模言...