在国产大模型价格战里,DeepSeek 是最难绕开的名字。V3.2 标准输入 2 元、缓存命中 0.2 元、输出 3 元每百万 Token——这个定价在 Hacker News 和 Reddit ...
最近半年,"agent harness"这个词在圈里出现的频率越来越高。但大多数人对它的理解还停在"给 LLM 套个循环加几个工具"。真正想做生产级 agent ...
智东西4月21日报道,昨夜,Kimi正式发布并开源旗舰模型K2.6,带来其迄今最强的代码能力、长程任务执行和Agent集群能力。 根据官方公布的多项基准测试,Kimi K2.6在博士级难度的“人类最后的考试”(Humanity’s Last Exam)中,K2.6以54.0%的得分位居第一;在评估Agent深度检索能力的DeepSearchQA中,更是以92.5%的高分大幅领先GPT-5.4和Ge ...