【新智元导读】伯克利团队造了个专门作弊的AI,用10行Python代码拿下SWE-bench满分!500道题全过,0个bug修复。8大主流评测基准,全部沦陷。同一周,两份独立审计确认:排行榜上的作弊早已不是假设,而是现实。 本周,AI评测圈经历了一场信任地震。 SWE-bench,是公认的AI编程能力标杆,各大模型发布会上的必报数字,投资人估值时的硬通货。 可伯克利的研究团队告诉你,一个conft ...
过去一年,大模型 Agent 的能力边界正在从会聊天、会写代码,快速扩展到会使用真实软件。其中最典型的场景,就是让大模型直接操作 Chrome 浏览器:打开网页、阅读内容、点击按钮、填写表单、上传文件、下载资料,甚至完成跨网页、多步骤的复杂任务。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果