論文要約 推論モデルは本当に安全?バイアスのリスクを徹底検証 紹介論文今回紹介する論文はIs Reasoning All You Need? Probing Bias in the Age of Reasoning Language Modelsという論文です。 この論文を一言でまとめると本研究では、... 2025.07.07 論文要約IT・プログラミング
論文要約 LLMの価値観を認知モデルで解釈する 紹介論文今回紹介する論文はInside you are many wolves: Using cognitive models to interpret value trade-offs in LLMsという論文です。 この論文を一言でまと... 2025.06.26 論文要約IT・プログラミング
論文要約 LLMの安全性評価: ファインチューニングの落とし穴 紹介論文今回紹介する論文はFine-Tuning Lowers Safety and Disrupts Evaluation Consistencyという論文です。 この論文を一言でまとめると本研究では、LLMのファインチューニングが安全性... 2025.06.23 論文要約IT・プログラミング
論文要約 LLMの安全性を高めるLoX: 低ランク外挿による革新的な手法 紹介論文今回紹介する論文はLoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuningという論文です。 この論文を一言でまとめると本記事では、LLMの安全性にお... 2025.06.22 論文要約IT・プログラミング
論文要約 LLMの制御を革新!INSTABOOSTで安全性を向上 紹介論文今回紹介する論文はInstruction Following by Boosting Attention of Large Language Modelsという論文です。 この論文を一言でまとめるとLLMの制御におけるlatent ... 2025.06.18 論文要約IT・プログラミング
論文要約 AIは迷子になる?思考を自己評価できるのか徹底検証 紹介論文今回紹介する論文はHow Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?という論文です。 この論文を一言でまとめると本研究では、大規模言... 2025.06.13 論文要約IT・プログラミング