解釈性

論文要約

LLMの心臓部を解剖!計算は最後の1トークンで完結する?

紹介論文今回紹介する論文はAll for One: LLMs Solve Mental Math at the Last Token With Information Transferred From Other Tokensという論文です...
論文要約

SNMFでLLMの 「心」を理解する

紹介論文今回紹介する論文はDecomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorizationという論文です。 こ...
論文要約

解釈性でLLMの公平性を実現!現実的な設定でのバイアス軽減

紹介論文今回紹介する論文はRobustly Improving LLM Fairness in Realistic Settings via Interpretabilityという論文です。 この論文を一言でまとめると本論文では、現実的な設...