論文要約 ルール抽出で 強化学習を革新! AUTORULE解説 紹介論文今回紹介する論文はAutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learningという論文です。 この論文を... 2025.06.21 論文要約IT・プログラミング