ベンチマーク

論文要約

FLUX-Reason-6M & PRISM-Bench徹底解説!次世代Text-to-Imageモデルの鍵

紹介論文今回紹介する論文はFLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmarkとい...
論文要約

SimpleQA Verified徹底解説!知識の信頼性を高める

紹介論文今回紹介する論文はSimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledgeという論文です。 この論文を一言でまとめるとSim...
論文要約

MLLM空間認識の限界に挑む:11PLUS-BENCH徹底解説

紹介論文今回紹介する論文は11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysisという論文です。 この論文を一...
論文要約

論文サーベイ生成を 評価するSurGEとは?

紹介論文今回紹介する論文はBenchmarking Computer Science Survey Generationという論文です。 この論文を一言でまとめるとコンピュータサイエンス分野の論文サーベイ生成を評価するための新しいベンチマー...
論文要約

LiveMCP-101:AIエージェント性能評価の最前線

紹介論文今回紹介する論文はLiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queriesという論文です。 この論文を一言でまとめるとA...
論文要約

LLMの過剰思考を解決!OptimalThinkingBench徹底解説

紹介論文今回紹介する論文はOptimalThinkingBench: Evaluating Over and Underthinking in LLMsという論文です。 この論文を一言でまとめるとLLMは複雑なタスクで力を発揮する一方、簡単...
論文要約

AutoCodeBench徹底解説!LLMコード生成ベンチマークの最前線

紹介論文今回紹介する論文はAutoCodeBench: Large Language Models are Automatic Code Benchmark Generatorsという論文です。 この論文を一言でまとめるとAutoCodeB...
論文要約

OdysseyBench:LLM エージェントの 真価を評価

紹介論文今回紹介する論文はOdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflowsという論文です。 この論文を一言でまと...
論文要約

OmniEAR:AIエージェントの身体性推論を評価する

紹介論文今回紹介する論文はOmniEAR: Benchmarking Agent Reasoning in Embodied Tasksという論文です。 この論文を一言でまとめるとOmniEARは、AIエージェントが物理的な制約の中でどのよ...
論文要約

LLMは理解しているか?非二元代名詞の評価

紹介論文今回紹介する論文はDo They Understand Them? An Updated Evaluation on Nonbinary Pronoun Handling in Large Language Modelsという論文で...