オフライン強化学習

論文要約

MR-RLVR: 数学AIの自己学習を革新!

紹介論文今回紹介する論文はMasked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewardsという論文です。 この論文を一言でまと...
論文要約

VisPlay解説: 画像でAI自律進化!

紹介論文今回紹介する論文はVisPlay: Self-Evolving Vision-Language Models from Imagesという論文です。 この論文を一言でまとめるとVisPlayは、画像からVision-Language...
論文要約

倫理的なAIエージェントへ!テスト時の行動制御テクニック

紹介論文今回紹介する論文はAligning Machiavellian Agents: Behavior Steering via Test-Time Policy Shapingという論文です。 この論文を一言でまとめるとAIエージェント...
論文要約

Instella解説: フルオープンLLMの衝撃!性能、長文、数学特化モデルを徹底解剖

紹介論文今回紹介する論文はInstella: Fully Open Language Models with Stellar Performanceという論文です。 この論文を一言でまとめるとAMDが開発したフルオープンLLM「Instel...
論文要約

少数派も救う!対話システム満足度推定の新潮流

紹介論文今回紹介する論文はMinority-Aware Satisfaction Estimation in Dialogue Systems via Preference-Adaptive Reinforcement Learningとい...
論文要約

MARAG-R1: マルチツールでRAGを強化!性能を徹底解剖

紹介論文今回紹介する論文はMARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrievalという論文です。 この論文を一言でまと...
論文要約

Kimi Linear徹底解説!次世代AIアーキテクチャの全貌

紹介論文今回紹介する論文はKimi Linear: An Expressive, Efficient Attention Architectureという論文です。 この論文を一言でまとめるとKimi Linearは、効率と表現力を両立した革...
論文要約

ReCodeでAIを賢く!計画と実行を統一する新手法

紹介論文今回紹介する論文はReCode: Unify Plan and Action for Universal Granularity Controlという論文です。 この論文を一言でまとめるとAIエージェントの柔軟性を高めるReCode...
論文要約

思考を二段階に!BR-RMで報酬モデルを高度化

紹介論文今回紹介する論文はThink Twice: Branch-and-Rethink Reasoning Reward Modelという論文です。 この論文を一言でまとめると本記事では、論文「Think Twice: Branch-an...
論文要約

LLMの壁を超える!Scaf-GRPO徹底解説

紹介論文今回紹介する論文はScaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoningという論文です。 この論文を一言でまとめるとL...