ExGRPO

ExGRPOでLLMの推論能力を爆上げ！過去経験から学ぶ新手法

紹介論文今回紹介する論文はExGRPO: Learning to Reason from Experienceという論文です。この論文を一言でまとめると大規模言語モデル(LLM)の推論能力を向上させるExGRPO。過去の経験から効率的に学...

2025.10.06

論文要約IT・プログラミング