ベンチマーク

論文要約

AutoCodeBench徹底解説!LLMコード生成ベンチマークの最前線

紹介論文今回紹介する論文はAutoCodeBench: Large Language Models are Automatic Code Benchmark Generatorsという論文です。 この論文を一言でまとめるとAutoCodeB...
論文要約

OdysseyBench:LLM エージェントの 真価を評価

紹介論文今回紹介する論文はOdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflowsという論文です。 この論文を一言でまと...
論文要約

OmniEAR:AIエージェントの身体性推論を評価する

紹介論文今回紹介する論文はOmniEAR: Benchmarking Agent Reasoning in Embodied Tasksという論文です。 この論文を一言でまとめるとOmniEARは、AIエージェントが物理的な制約の中でどのよ...
論文要約

LLMは理解しているか?非二元代名詞の評価

紹介論文今回紹介する論文はDo They Understand Them? An Updated Evaluation on Nonbinary Pronoun Handling in Large Language Modelsという論文で...
論文要約

LLMはテキスト ゲームを攻略できる?

紹介論文今回紹介する論文はTextQuests: How Good are LLMs at Text-Based Video Games?という論文です。 この論文を一言でまとめるとTextQuestsは、LLMのテキストベースゲームにおけ...
論文要約

MMBench-GUI徹底解説:GUIエージェント評価の最前線

紹介論文今回紹介する論文はMMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agentsという論文です。 この論文を一言でまとめるとGUIエージェント...
論文要約

QAベンチマークはもう限界?敵対的議論という新評価軸

紹介論文今回紹介する論文はPretraining on the Test Set Is No Longer All You Need: A Debate-Driven Approach to QA Benchmarksという論文です。 この...
論文要約

LingBench++徹底解説:言語学ベンチマークでLLMの限界に挑む

紹介論文今回紹介する論文はLingBench++: A Linguistically-Informed Benchmark and Reasoning Framework for Multi-Step and Cross-Cultural ...
論文要約

3LM徹底解説:Arabic、STEM、Codeを繋ぐLLMベンチマーク

紹介論文今回紹介する論文は3LM: Bridging Arabic, STEM, and Code through Benchmarkingという論文です。 この論文を一言でまとめると3LMは、Arabic、STEM(科学・技術・工学・数学...
論文要約

ABGEN解説:LLMは科学研究のアブレーション設計を支援できるのか?

紹介論文今回紹介する論文はAbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Researchという論...