性能評価

論文要約

LLMの安全性評価: ファインチューニングの落とし穴

紹介論文今回紹介する論文はFine-Tuning Lowers Safety and Disrupts Evaluation Consistencyという論文です。 この論文を一言でまとめると本研究では、LLMのファインチューニングが安全性...
論文要約

AIで教育評価は変わる?ポルトガル語MCQ生成の最前線

紹介論文今回紹介する論文はFrom Model to Classroom: Evaluating Generated MCQs for Portuguese with Narrative and Difficulty Concernsという...
論文要約

LLMの命令追従能力を徹底解剖!Ordered CommonGenで性能評価

紹介論文今回紹介する論文はRevisiting Compositional Generalization Capability of Large Language Models Considering Instruction Followi...