オフライン強化学習

論文要約

LLM検索エージェントの構造的異質性に対処するStratified GRPOとは?

紹介論文今回紹介する論文はStratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agentsという論文です。 こ...
論文要約

TATTOO: 表形式データ推論を革新するツール強化型PRM

紹介論文今回紹介する論文はTaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoningという論文です。 この論文を一言でまとめるとTATTOOは、...
論文要約

低確率トークンでRL探索を深化!

紹介論文今回紹介する論文はLow-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Rewardという論文です。 この論文を一言...
論文要約

ExGRPOでLLMの推論能力を爆上げ!過去経験から学ぶ新手法

紹介論文今回紹介する論文はExGRPO: Learning to Reason from Experienceという論文です。 この論文を一言でまとめると大規模言語モデル(LLM)の推論能力を向上させるExGRPO。過去の経験から効率的に学...
論文要約

対話型AIの新潮流!AC-RL徹底解説

紹介論文今回紹介する論文はClarification as Supervision: Reinforcement Learning for Vision-Language Interfacesという論文です。 この論文を一言でまとめると画像...
論文要約

MENLO徹底解説: 47言語対応LLM評価の最前線

紹介論文今回紹介する論文はMENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languagesとい...
論文要約

AttnRL: 注意力でLLM推論を効率化

紹介論文今回紹介する論文はAttention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Modelsという論文です。 この論文を一言...
論文要約

CapRL解説:画像キャプションAIを強化する新手法

紹介論文今回紹介する論文はCapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learningという論文です。 この論文を一言でまとめると画像キャプショ...
論文要約

RLBFF徹底解説: 人間と検証可能報酬の架け橋

紹介論文今回紹介する論文はRLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewardsという論文です。 この論文を一言でまとめると...
論文要約

思考するAI!RLMTで会話能力がGPT-4超え?

紹介論文今回紹介する論文はLanguage Models that Think, Chat Betterという論文です。 この論文を一言でまとめるとRLMT(Model-rewarded Thinking)という新しい強化学習手法で、AIの...