AI創薬 | ページ 4

LLMの報酬ハッキングを克服！Cooper徹底解説

紹介論文今回紹介する論文はCooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Modelsという論文です。 ...

2025.08.09

論文要約IT・プログラミング

紹介論文今回紹介する論文はOmniEAR: Benchmarking Agent Reasoning in Embodied Tasksという論文です。この論文を一言でまとめるとOmniEARは、AIエージェントが物理的な制約の中でどのよ...

2025.08.09

論文要約IT・プログラミング

紹介論文今回紹介する論文はTest-Time Reinforcement Learning for GUI Grounding via Region Consistencyという論文です。この論文を一言でまとめると本稿では、GUIグラウン...

2025.08.09

論文要約IT・プログラミング

紹介論文今回紹介する論文はLearning to Reason for Factualityという論文です。この論文を一言でまとめると本論文では、推論能力を持つ大規模言語モデル(LLM)において、事実性が低下する課題に取り組み、オンライン...

2025.08.09

論文要約IT・プログラミング

紹介論文今回紹介する論文はH-Net++: Hierarchical Dynamic Chunking for Tokenizer-Free Language Modelling in Morphologically-Rich Langua...

2025.08.08

論文要約IT・プログラミング

紹介論文今回紹介する論文はHop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysisという論文です。この論文を一言で...

2025.08.07

論文要約IT・プログラミング

紹介論文今回紹介する論文はSEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experienceという論文です。この論文を一言でまとめるとAIエ...

2025.08.07

論文要約IT・プログラミング

紹介論文今回紹介する論文はMore Than a Score: Probing the Impact of Prompt Specificity on LLM Code Generationという論文です。この論文を一言でまとめると本記事...

2025.08.06

論文要約IT・プログラミング

紹介論文今回紹介する論文はNoosemia: toward a Cognitive and Phenomenological Account of Intentionality Attribution in Human-Generative...

2025.08.06

論文要約IT・プログラミング

紹介論文今回紹介する論文はHyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agentsという論文です。...

2025.08.06

論文要約IT・プログラミング