Coding 领域的投资在两个核心变化的趋势下,底层推理引擎的持续进步和市场空间的变化,因此格外值得我们关注。LLM 作为推理引擎,coding 是最好的应用场景:代码的逻辑比自然语言更清晰,执行的结果能由 AI 自动化验证。因此我们看到从 Sonnet 3.5 到 o1 pro,每 ...
AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的 70%+。 2025 年用 AI 写代码成了日常,我在 X 上看到有开发者说:“我发布的有些代码自己从未读过”。 这恐怕就是现在 Vibe Coding 的常态。
Qwen 3.6 Plus Preview 作为 Qwen 全新进化版本,现已登陆 OpenRouter 平台并免费开放使用。该模型采用先进的混合架构,在效率和可扩展性方面均有提升。 相比 Qwen 3.5 系列,Qwen 3.6 Plus Preview 提供了更强的推理能力和更可靠的 Agent 行为。在基准测试中,其表现达到或超过了当前最先进的顶级模型。作为一款旗舰级预览版模型,它在 ...
在很长一段时间,Anthropic旗下的Claude Code看起来似乎已经没有了对手,用户对它的依赖变得越来越重。而OpenAI显然不想让Anthropic 这么舒服。在Codex的一通激进冲刺后,开发者社区的反应也开始发生一些变化。
「此话当真」是一档泛商业类播客,我们希望搭建这样一个分享和交流的平台,让每一个对商业、科技、创投充满好奇的人都能在这里有所收获。每期播客将会由不同的真格投资人担任主持,和各领域的领军人物一起带大家深入了解科技趋势,以及创新技术的 ...
基于 Agent 的模式,通过开发者与之进行对话来完成编程任务已经成为 AI Coding 的标配,这种路线选择确实有其依据: Anthropic Barry 曾表示 Agent 最适合的场景是那些既负责又有价值,有技术可行性且失败后的风险较低或监控成本不高的任务,编程场景完全符合这个特征。
1月19日,字节跳动旗下AI Agent平台“扣子”宣布2.0品牌升级。 扣子诞生于2024年2月,最初定位是新一代AI Agent平台。基于服务超1000万真实开发场景的经验,扣子2.0进行了全局重构,定位和使命是帮助更多的职场人。 扣子2.0集成了Agent Skill、Agent Plan、Agent Coding ...
随着大模型从“能力展示”走向“真实应用”,AI 是否具备企业级生产力,正成为行业与资本市场共同关注的核心问题。近日,MiniMax(00100.HK) 正式开源首个面向 Coding Agent 的系统性评测集OctoCodingBench,试图为下一代 AGI 的落地标准给出更清晰的答案。 从资本 ...
前述内容由第一财经“星翼大模型”智能生成,相关AI内容力求但不保证准确性、时效性、完整性等。请用户注意甄别,第一财经不承担由此产生的任何责任。 如您有疑问或需要更多信息,可以联系我们 yonghu@yicai.com 美团发布首款AI Coding Agent,编程“小白”聊天 ...
Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。 文章代表作者个人观点,少数派仅对标题和排版略作修改。 2025 年,我的工作习惯彻底被 Claude ...