这项由明尼苏达大学双城分校、延世大学和Grammarly联合开展的研究,以预印本形式发布于2026年4月(arXiv编号:2604.10261),目前正在学术审议中。研究构建了一个名为"THE AMAZING AGENT RACE(AAR,神奇智能体竞赛)"的测试框架,用于系统评估AI智能体(即能自主使用工具完成任务的AI程序)在复杂任务中的真实能力。