
12月4日凌晨,GitHub与DesignArena意外泄露了OpenAI内部代号“企鹅”(Penguin)的全新模型矩阵,首次公开了四档推理预算的详细信息:旗舰Emperor512、中端Rockhopper64、轻量Macaroni16与零推理Mumble0。这一系列模型覆盖了从云端到边缘的全场景需求,展现了OpenAI在人工智能领域的最新突破。
图源备注:图片由AI生成,图片授权服务商Midjourney512
推理预算高达512!Emperor或成GPT-5.2核心
内部文件显示,Emperor模型拥有高达512单位的“juice”推理预算,是现行模型的8-10倍。令人惊讶的是,尽管预算如此庞大,Emperor的端到端延迟却控制在80ms以内,实现了“零等待”的对话体验。代码路径已嵌入实时剪枝与动态计算分配技术,疑似为明年GPT-5.2提供底层架构支持。
四档预算对应四种延迟表现

Macaroni主打极速响应,Mumble彻底跳过推理步骤
Rockhopper(64)(中端)定位“推理+速度”平衡,目标替代GPT-4.5
Macaroni(16)面向移动端,首次在8Gen3芯片跑通70B模型
Mumble(0)完全跳过推理步骤,响应时间极短
这一系列模型的推出,不仅展示了OpenAI在模型优化方面的深厚技术积累,也为不同场景下的AI应用提供了更多可能性。从旗舰级的Emperor512到轻量级的Macaroni16,再到零推理的Mumble0,每一款模型都有其独特的定位和优势,旨在满足用户在不同场景下的需求。
