Py - 搜索 News

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI

【新智元导读】伯克利团队造了个专门作弊的AI，用10行Python代码拿下SWE-bench满分！500道题全过，0个bug修复。8大主流评测基准，全部沦陷。同一周，两份独立审计确认：排行榜上的作弊早已不是假设，而是现实。本周，AI评测圈经历了一场信任地震。 SWE-bench，是公认的AI编程能力标杆，各大模型发布会上的必报数字，投资人估值时的硬通货。可伯克利的研究团队告诉你，一个conft ...

腾讯网

7.2k Stars！Agent操控浏览器神器Browser Harness开源，Claude Code直连Chrome边 ...

过去一年，大模型 Agent 的能力边界正在从会聊天、会写代码，快速扩展到会使用真实软件。其中最典型的场景，就是让大模型直接操作 Chrome 浏览器：打开网页、阅读内容、点击按钮、填写表单、上传文件、下载资料，甚至完成跨网页、多步骤的复杂任务。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI

7.2k Stars！Agent操控浏览器神器Browser Harness开源，Claude Code直连Chrome边 ...

今日热点