多言語LLM

論文要約

M-Thinker: 多言語推論を強化する新手法

紹介論文今回紹介する論文はThink Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learningという論文です。 こ...
論文要約

Vibe Checkでコード品質を向上!LLM評価の新指標

紹介論文今回紹介する論文はVibe Checker: Aligning Code Evaluation with Human Preferenceという論文です。 この論文を一言でまとめるとLLMによるコード生成の評価は機能的正確性だけでは...
論文要約

LLM検索エージェントの構造的異質性に対処するStratified GRPOとは?

紹介論文今回紹介する論文はStratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agentsという論文です。 こ...
論文要約

拡散LLMの精度革命! TOLERATOR解剖

紹介論文今回紹介する論文はFinish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Modelsという論...
論文要約

LLMの”なぜ”を解明!DITで重み変化を可視化

紹介論文今回紹介する論文はLearning to Interpret Weight Differences in Language Modelsという論文です。 この論文を一言でまとめるとLLMのファインチューニングにおける重み変化を自然言...
論文要約

LLM間連携の新潮流!Cache-to-Cache通信を徹底解説

紹介論文今回紹介する論文はCache-to-Cache: Direct Semantic Communication Between Large Language Modelsという論文です。 この論文を一言でまとめると大規模言語モデル(L...
論文要約

Self-Anchor: LLMの注意機構をステップ毎に最適化!

紹介論文今回紹介する論文はSelf-Anchor: Large Language Model Reasoning via Step-by-step Attention Alignmentという論文です。 この論文を一言でまとめるとSelf-...
論文要約

ExGRPOでLLMの推論能力を爆上げ!過去経験から学ぶ新手法

紹介論文今回紹介する論文はExGRPO: Learning to Reason from Experienceという論文です。 この論文を一言でまとめると大規模言語モデル(LLM)の推論能力を向上させるExGRPO。過去の経験から効率的に学...
論文要約

LLM過剰思考を抑制!TECAとCERで効率的な推論

紹介論文今回紹介する論文はExplore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulationという論文です。 この論文を一言...
論文要約

LLMの推論能力を革新!RLADで抽象化を学習

紹介論文今回紹介する論文はRLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problemsという論文です。 この論文を一言でまとめるとRLADは、LLMが...