論文要約 MLLM空間認識の限界に挑む:11PLUS-BENCH徹底解説 紹介論文今回紹介する論文は11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysisという論文です。 この論文を一... 2025.08.28 論文要約IT・プログラミング
論文要約 論文サーベイ生成を 評価するSurGEとは? 紹介論文今回紹介する論文はBenchmarking Computer Science Survey Generationという論文です。 この論文を一言でまとめるとコンピュータサイエンス分野の論文サーベイ生成を評価するための新しいベンチマー... 2025.08.24 論文要約IT・プログラミング
論文要約 LiveMCP-101:AIエージェント性能評価の最前線 紹介論文今回紹介する論文はLiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queriesという論文です。 この論文を一言でまとめるとA... 2025.08.22 論文要約IT・プログラミング
論文要約 LLMの過剰思考を解決!OptimalThinkingBench徹底解説 紹介論文今回紹介する論文はOptimalThinkingBench: Evaluating Over and Underthinking in LLMsという論文です。 この論文を一言でまとめるとLLMは複雑なタスクで力を発揮する一方、簡単... 2025.08.20 論文要約IT・プログラミング
論文要約 AutoCodeBench徹底解説!LLMコード生成ベンチマークの最前線 紹介論文今回紹介する論文はAutoCodeBench: Large Language Models are Automatic Code Benchmark Generatorsという論文です。 この論文を一言でまとめるとAutoCodeB... 2025.08.14 論文要約IT・プログラミング
論文要約 OdysseyBench:LLM エージェントの 真価を評価 紹介論文今回紹介する論文はOdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflowsという論文です。 この論文を一言でまと... 2025.08.14 論文要約IT・プログラミング
論文要約 OmniEAR:AIエージェントの身体性推論を評価する 紹介論文今回紹介する論文はOmniEAR: Benchmarking Agent Reasoning in Embodied Tasksという論文です。 この論文を一言でまとめるとOmniEARは、AIエージェントが物理的な制約の中でどのよ... 2025.08.09 論文要約IT・プログラミング
論文要約 LLMは理解しているか?非二元代名詞の評価 紹介論文今回紹介する論文はDo They Understand Them? An Updated Evaluation on Nonbinary Pronoun Handling in Large Language Modelsという論文で... 2025.08.04 論文要約IT・プログラミング
論文要約 LLMはテキスト ゲームを攻略できる? 紹介論文今回紹介する論文はTextQuests: How Good are LLMs at Text-Based Video Games?という論文です。 この論文を一言でまとめるとTextQuestsは、LLMのテキストベースゲームにおけ... 2025.08.02 論文要約IT・プログラミング
論文要約 MMBench-GUI徹底解説:GUIエージェント評価の最前線 紹介論文今回紹介する論文はMMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agentsという論文です。 この論文を一言でまとめるとGUIエージェント... 2025.07.28 論文要約IT・プログラミング