ベンチマーク

論文要約

LLMの命令追従能力を徹底解剖!Ordered CommonGenで性能評価

紹介論文今回紹介する論文はRevisiting Compositional Generalization Capability of Large Language Models Considering Instruction Followi...
論文要約

分子の毒性問題にAIはどこまで対応できる?【MLLM創薬】

紹介論文今回紹介する論文はBreaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?という論文です。 この論文を一言でまとめると...
論文要約

ChineseHarm-Bench:中国語有害コンテンツ検出の新たな一手

紹介論文今回紹介する論文はChineseHarm-Bench: A Chinese Harmful Content Detection Benchmarkという論文です。 この論文を一言でまとめると本記事では、中国語の有害コンテンツ検出にお...