論文要約 SNMFでLLMの 「心」を理解する 紹介論文今回紹介する論文はDecomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorizationという論文です。 こ... 2025.06.16 論文要約IT・プログラミング
論文要約 解釈性でLLMの公平性を実現!現実的な設定でのバイアス軽減 紹介論文今回紹介する論文はRobustly Improving LLM Fairness in Realistic Settings via Interpretabilityという論文です。 この論文を一言でまとめると本論文では、現実的な設... 2025.06.15 論文要約IT・プログラミング