MLLM

DECRYPTO：LLMのToM能力を測る新ベンチマーク

紹介論文今回紹介する論文はThe Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mindという論文です。この論文を一言でまとめると大規模言語モデルのマルチエージェント...

2025.06.27

論文要約IT・プログラミング

LLMの価値観を認知モデルで解釈する

紹介論文今回紹介する論文はInside you are many wolves: Using cognitive models to interpret value trade-offs in LLMsという論文です。この論文を一言でまと...

2025.06.26

論文要約IT・プログラミング

マルチモーダル医療診断AI「MAM」を徹底解説！

紹介論文今回紹介する論文はMAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaborationという論...

2025.06.26

論文要約IT・プログラミング

LLMは数学の創造性を発揮できるのか？

紹介論文今回紹介する論文はOMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative G...

2025.06.25

論文要約IT・プログラミング

ReasonFlux-PRM：LLM推論を革新する新手法

紹介論文今回紹介する論文はReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMsという論文です。この論文を一言でまとめるとReas...

2025.06.25

論文要約IT・プログラミング

LLMのKVキャッシュ最適化:PruLongでメモリ効率を最大化

紹介論文今回紹介する論文はCache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs?という論文です。この論文を一言でまとめるとLLMの長文処理...

2025.06.23

論文要約IT・プログラミング

LLMは「なぜ」を理解できる？因果推論能力を徹底検証

紹介論文今回紹介する論文はCLEAR-3K: Assessing Causal Explanatory Capabilities in Language Modelsという論文です。この論文を一言でまとめると本記事では、CLEAR-3Kデ...

2025.06.23

論文要約IT・プログラミング

SWE-Bench解剖：LLMエージェント自動修復の最前線

紹介論文今回紹介する論文はDissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repai...

2025.06.23

論文要約IT・プログラミング

LLMの安全性評価：ファインチューニングの落とし穴

紹介論文今回紹介する論文はFine-Tuning Lowers Safety and Disrupts Evaluation Consistencyという論文です。この論文を一言でまとめると本研究では、LLMのファインチューニングが安全性...

2025.06.23

論文要約IT・プログラミング

LLMの安全性を高めるLoX: 低ランク外挿による革新的な手法

紹介論文今回紹介する論文はLoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuningという論文です。この論文を一言でまとめると本記事では、LLMの安全性にお...

2025.06.22

論文要約IT・プログラミング

DECRYPTO：LLMのToM能力を測る新ベンチマーク

LLMの価値観を認知モデルで解釈する

マルチモーダル医療診断AI「MAM」を徹底解説！

LLMは数学の 創造性を発揮 できるのか？

ReasonFlux-PRM：LLM推論を革新する新手法

LLMのKVキャッシュ最適化:PruLongでメモリ効率を最大化

LLMは「なぜ」を理解できる？因果推論能力を徹底検証

SWE-Bench解剖：LLMエージェント自動修復の最前線

LLMの安全性評価： ファインチューニングの落とし穴

LLMの安全性を高めるLoX: 低ランク外挿による革新的な手法

LLMは数学の創造性を発揮できるのか？

LLMの安全性評価：ファインチューニングの落とし穴