安全性

Jinx論文徹底解説：LLMの「悪用」を暴く最先端研究

紹介論文今回紹介する論文はJinx: Unlimited LLMs for Probing Alignment Failuresという論文です。この論文を一言でまとめるとJinxは、意図的に安全機構を取り除いたLLMであり、既存の安全対策...

2025.08.12

論文要約IT・プログラミング

LLMの記憶問題：安全なAI開発のために

紹介論文今回紹介する論文はMemorization in Fine-Tuned Large Language Modelsという論文です。この論文を一言でまとめると本記事では、LLMのファインチューニングにおける記憶の問題を扱った論文「M...

2025.07.29

論文要約IT・プログラミング

SafeWork-R1：AIの安全性を進化させる革新的アプローチ

紹介論文今回紹介する論文はSafeWork-R1: Coevolving Safety and Intelligence under the AI-45$^{\circ}$ Lawという論文です。この論文を一言でまとめるとSafeWork...

2025.07.27

論文要約IT・プログラミング

AIの安全性は予測可能？早期検出の新手法

紹介論文今回紹介する論文はCan We Predict Alignment Before Models Finish Thinking? Towards Monitoring Misaligned Reasoning Modelsという論文...

2025.07.18

論文要約IT・プログラミング

CoT監視は万能か？AI安全性確保の最前線

紹介論文今回紹介する論文はWhen Chain of Thought is Necessary, Language Models Struggle to Evade Monitorsという論文です。この論文を一言でまとめると本記事では、A...

2025.07.09

論文要約IT・プログラミング

推論モデルは本当に安全？バイアスのリスクを徹底検証

紹介論文今回紹介する論文はIs Reasoning All You Need? Probing Bias in the Age of Reasoning Language Modelsという論文です。この論文を一言でまとめると本研究では、...

2025.07.07

論文要約IT・プログラミング

LLMの価値観を認知モデルで解釈する

紹介論文今回紹介する論文はInside you are many wolves: Using cognitive models to interpret value trade-offs in LLMsという論文です。この論文を一言でまと...

2025.06.26

論文要約IT・プログラミング

LLMの安全性評価：ファインチューニングの落とし穴

紹介論文今回紹介する論文はFine-Tuning Lowers Safety and Disrupts Evaluation Consistencyという論文です。この論文を一言でまとめると本研究では、LLMのファインチューニングが安全性...

2025.06.23

論文要約IT・プログラミング

LLMの安全性を高めるLoX: 低ランク外挿による革新的な手法

紹介論文今回紹介する論文はLoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuningという論文です。この論文を一言でまとめると本記事では、LLMの安全性にお...

2025.06.22

論文要約IT・プログラミング

LLMの制御を革新！INSTABOOSTで安全性を向上

紹介論文今回紹介する論文はInstruction Following by Boosting Attention of Large Language Modelsという論文です。この論文を一言でまとめるとLLMの制御におけるlatent ...

2025.06.18

論文要約IT・プログラミング

Jinx論文徹底解説：LLMの「悪用」を暴く最先端研究

LLMの記憶問題：安全なAI開発のために

SafeWork-R1：AIの安全性を進化させる革新的アプローチ

AIの安全性は予測可能？早期検出の新手法

CoT監視は万能か？AI安全性確保の最前線

推論モデルは本当に安全？バイアスのリスクを徹底検証

LLMの価値観を認知モデルで解釈する

LLMの安全性評価： ファインチューニングの落とし穴

LLMの安全性を高めるLoX: 低ランク外挿による革新的な手法

LLMの制御を革新！INSTABOOSTで安全性を向上

LLMの安全性評価：ファインチューニングの落とし穴