不可否认,Msundara19对模型后端的优化是有价值的——从16ms降到10ms,38%的提升确实能解决部分场景的痛点。 但当他拆解完整请求链路后发现,CoreML FP16的纯推理时间仅1.17ms,而PIL图像解码、归一化的时间却高达8.5ms,占了整个请求时间的85%。