論文要約 ExGRPOでLLMの推論能力を爆上げ!過去経験から学ぶ新手法 紹介論文今回紹介する論文はExGRPO: Learning to Reason from Experienceという論文です。 この論文を一言でまとめると大規模言語モデル(LLM)の推論能力を向上させるExGRPO。過去の経験から効率的に学... 2025.10.06 論文要約IT・プログラミング