ベンチマーク

論文要約

MLLM空間認識の限界に挑む:11PLUS-BENCH徹底解説

紹介論文今回紹介する論文は11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysisという論文です。 この論文を一...
論文要約

論文サーベイ生成を 評価するSurGEとは?

紹介論文今回紹介する論文はBenchmarking Computer Science Survey Generationという論文です。 この論文を一言でまとめるとコンピュータサイエンス分野の論文サーベイ生成を評価するための新しいベンチマー...
論文要約

LiveMCP-101:AIエージェント性能評価の最前線

紹介論文今回紹介する論文はLiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queriesという論文です。 この論文を一言でまとめるとA...
論文要約

LLMの過剰思考を解決!OptimalThinkingBench徹底解説

紹介論文今回紹介する論文はOptimalThinkingBench: Evaluating Over and Underthinking in LLMsという論文です。 この論文を一言でまとめるとLLMは複雑なタスクで力を発揮する一方、簡単...
論文要約

AutoCodeBench徹底解説!LLMコード生成ベンチマークの最前線

紹介論文今回紹介する論文はAutoCodeBench: Large Language Models are Automatic Code Benchmark Generatorsという論文です。 この論文を一言でまとめるとAutoCodeB...
論文要約

OdysseyBench:LLM エージェントの 真価を評価

紹介論文今回紹介する論文はOdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflowsという論文です。 この論文を一言でまと...
論文要約

OmniEAR:AIエージェントの身体性推論を評価する

紹介論文今回紹介する論文はOmniEAR: Benchmarking Agent Reasoning in Embodied Tasksという論文です。 この論文を一言でまとめるとOmniEARは、AIエージェントが物理的な制約の中でどのよ...
論文要約

LLMは理解しているか?非二元代名詞の評価

紹介論文今回紹介する論文はDo They Understand Them? An Updated Evaluation on Nonbinary Pronoun Handling in Large Language Modelsという論文で...
論文要約

LLMはテキスト ゲームを攻略できる?

紹介論文今回紹介する論文はTextQuests: How Good are LLMs at Text-Based Video Games?という論文です。 この論文を一言でまとめるとTextQuestsは、LLMのテキストベースゲームにおけ...
論文要約

MMBench-GUI徹底解説:GUIエージェント評価の最前線

紹介論文今回紹介する論文はMMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agentsという論文です。 この論文を一言でまとめるとGUIエージェント...