一句话概括:在 GLM-5-Turbo 的编程和龙虾能力基座上,加入了原生的视觉理解和推理能力 关键词是「原生」。这里的视觉能力是从预训练阶段就开始训的,后训练阶段再做多模态协同优化,和在文本模型上面接一个视觉编码器的做法不一样 Benchmark 先看多模态相关 ...