論文要約

LLMは「なぜ」を理解できる？因果推論能力を徹底検証

紹介論文今回紹介する論文はCLEAR-3K: Assessing Causal Explanatory Capabilities in Language Modelsという論文です。この論文を一言でまとめると本記事では、CLEAR-3Kデ...

2025.06.23

論文要約IT・プログラミング

SWE-Bench解剖：LLMエージェント自動修復の最前線

紹介論文今回紹介する論文はDissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repai...

2025.06.23

論文要約IT・プログラミング

LLMの安全性評価：ファインチューニングの落とし穴

紹介論文今回紹介する論文はFine-Tuning Lowers Safety and Disrupts Evaluation Consistencyという論文です。この論文を一言でまとめると本研究では、LLMのファインチューニングが安全性...

2025.06.23

論文要約IT・プログラミング

AIで教育評価は変わる？ポルトガル語MCQ生成の最前線

紹介論文今回紹介する論文はFrom Model to Classroom: Evaluating Generated MCQs for Portuguese with Narrative and Difficulty Concernsという...

2025.06.23

論文要約IT・プログラミング

LLMの安全性を高めるLoX: 低ランク外挿による革新的な手法

紹介論文今回紹介する論文はLoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuningという論文です。この論文を一言でまとめると本記事では、LLMの安全性にお...

2025.06.22

論文要約IT・プログラミング

LLMは「後悔」をどう表現する？認知アーキテクチャ解明への挑戦

紹介論文今回紹介する論文はThe Compositional Architecture of Regret in Large Language Modelsという論文です。この論文を一言でまとめると本記事では、大規模言語モデル(LLM)に...

2025.06.22

論文要約IT・プログラミング

異文化コミュニケーションの落とし穴？ポライトネス・ギャップを徹底解説

紹介論文今回紹介する論文はMinding the Politeness Gap in Cross-cultural Communicationという論文です。この論文を一言でまとめると異文化コミュニケーションにおけるポライトネスの誤解はな...

2025.06.22

論文要約IT・プログラミング

LLMの命令追従能力を徹底解剖！Ordered CommonGenで性能評価

紹介論文今回紹介する論文はRevisiting Compositional Generalization Capability of Large Language Models Considering Instruction Followi...

2025.06.22

論文要約IT・プログラミング

文字N-グラムで挑む！ルーマニア語の著者特定

紹介論文今回紹介する論文はOldies but Goldies: The Potential of Character N-grams for Romanian Textsという論文です。この論文を一言でまとめると本記事では、ルーマニア語...

2025.06.21

論文要約IT・プログラミング

ルール抽出で強化学習を革新！ AUTORULE解説

紹介論文今回紹介する論文はAutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learningという論文です。この論文を...

2025.06.21

論文要約IT・プログラミング

LLMは「なぜ」を理解できる？因果推論能力を徹底検証

SWE-Bench解剖：LLMエージェント自動修復の最前線

LLMの安全性評価： ファインチューニングの落とし穴

AIで教育評価は変わる？ポルトガル語MCQ生成の最前線

LLMの安全性を高めるLoX: 低ランク外挿による革新的な手法

LLMは「後悔」をどう表現する？認知アーキテクチャ解明への挑戦

異文化コミュニケーションの落とし穴？ポライトネス・ギャップを徹底解説

LLMの命令追従能力を徹底解剖！Ordered CommonGenで性能評価

文字N-グラムで挑む！ ルーマニア語の著者特定

ルール抽出で 強化学習を革新！ AUTORULE解説

LLMの安全性評価：ファインチューニングの落とし穴

文字N-グラムで挑む！ルーマニア語の著者特定

ルール抽出で強化学習を革新！ AUTORULE解説