型推論

論文要約

少数データでLLM推論を強化!P-TTSデータ拡張術

紹介論文今回紹介する論文はPrompting Test-Time Scaling Is A Strong LLM Reasoning Data Augmentationという論文です。 この論文を一言でまとめるとLLMの推論能力を飛躍的に向...
論文要約

LLMエージェントは「いつ知るのをやめるか」を学べるか?CaRT徹底解説

紹介論文今回紹介する論文はCaRT: Teaching LLM Agents to Know When They Know Enoughという論文です。 この論文を一言でまとめるとLLMエージェントが情報を収集しすぎたり、逆に情報不足で失敗...
論文要約

LLM推論を効率化!RLによるKVキャッシュ圧縮

紹介論文今回紹介する論文はWhich Heads Matter for Reasoning? RL-Guided KV Cache Compressionという論文です。 この論文を一言でまとめると大規模言語モデル(LLM)の推論コストを削...
論文要約

M-Thinker: 多言語推論を強化する新手法

紹介論文今回紹介する論文はThink Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learningという論文です。 こ...
論文要約

TATTOO: 表形式データ推論を革新するツール強化型PRM

紹介論文今回紹介する論文はTaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoningという論文です。 この論文を一言でまとめるとTATTOOは、...
論文要約

Self-Anchor: LLMの注意機構をステップ毎に最適化!

紹介論文今回紹介する論文はSelf-Anchor: Large Language Model Reasoning via Step-by-step Attention Alignmentという論文です。 この論文を一言でまとめるとSelf-...
論文要約

ExGRPOでLLMの推論能力を爆上げ!過去経験から学ぶ新手法

紹介論文今回紹介する論文はExGRPO: Learning to Reason from Experienceという論文です。 この論文を一言でまとめると大規模言語モデル(LLM)の推論能力を向上させるExGRPO。過去の経験から効率的に学...
論文要約

LLM過剰思考を抑制!TECAとCERで効率的な推論

紹介論文今回紹介する論文はExplore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulationという論文です。 この論文を一言...
論文要約

LLMの推論能力を革新!RLADで抽象化を学習

紹介論文今回紹介する論文はRLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problemsという論文です。 この論文を一言でまとめるとRLADは、LLMが...
論文要約

大規模言語モデル多言語推論のParallel Scaling Law

紹介論文今回紹介する論文はParallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspectiveという論文です。 この論...