論文要約

論文要約

LLMは「なぜ」を理解できる?因果推論能力を徹底検証

紹介論文今回紹介する論文はCLEAR-3K: Assessing Causal Explanatory Capabilities in Language Modelsという論文です。 この論文を一言でまとめると本記事では、CLEAR-3Kデ...
論文要約

SWE-Bench解剖:LLMエージェント自動修復の最前線

紹介論文今回紹介する論文はDissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repai...
論文要約

LLMの安全性評価: ファインチューニングの落とし穴

紹介論文今回紹介する論文はFine-Tuning Lowers Safety and Disrupts Evaluation Consistencyという論文です。 この論文を一言でまとめると本研究では、LLMのファインチューニングが安全性...
論文要約

AIで教育評価は変わる?ポルトガル語MCQ生成の最前線

紹介論文今回紹介する論文はFrom Model to Classroom: Evaluating Generated MCQs for Portuguese with Narrative and Difficulty Concernsという...
論文要約

LLMの安全性を高めるLoX: 低ランク外挿による革新的な手法

紹介論文今回紹介する論文はLoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuningという論文です。 この論文を一言でまとめると本記事では、LLMの安全性にお...
論文要約

LLMは「後悔」をどう表現する?認知アーキテクチャ解明への挑戦

紹介論文今回紹介する論文はThe Compositional Architecture of Regret in Large Language Modelsという論文です。 この論文を一言でまとめると本記事では、大規模言語モデル(LLM)に...
論文要約

異文化コミュニケーションの落とし穴?ポライトネス・ギャップを徹底解説

紹介論文今回紹介する論文はMinding the Politeness Gap in Cross-cultural Communicationという論文です。 この論文を一言でまとめると異文化コミュニケーションにおけるポライトネスの誤解はな...
論文要約

LLMの命令追従能力を徹底解剖!Ordered CommonGenで性能評価

紹介論文今回紹介する論文はRevisiting Compositional Generalization Capability of Large Language Models Considering Instruction Followi...
論文要約

文字N-グラムで挑む! ルーマニア語の著者特定

紹介論文今回紹介する論文はOldies but Goldies: The Potential of Character N-grams for Romanian Textsという論文です。 この論文を一言でまとめると本記事では、ルーマニア語...
論文要約

ルール抽出で 強化学習を革新! AUTORULE解説

紹介論文今回紹介する論文はAutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learningという論文です。 この論文を...