微新创想:3月18日,Midjourney正式发布其V8模型的早期版本。作为一次重大的架构更新,V8模型在Alpha网站上线后立即引发行业关注。其图像生成速度较前代提升约5倍,显著优化了用户的创作体验。
此次更新引入了原生渲染2K分辨率图像的–hd模式,并新增旨在增强图像连贯性的–q4参数。这些新功能不仅提升了图像的清晰度和细节表现,也增强了模型对复杂场景的描绘能力。
技术层面,V8显著提升了对复杂、长文本指令的遵循能力。尤其在处理图像内嵌文本渲染时,通过引号识别机制实现了更高的准确率。这一改进使得用户在创作过程中能够更精准地表达自己的需求。
尽管性能大幅跃升,但Midjourney仍坚持1000%的纯扩散模型路径。在与谷歌Nano Banana及OpenAI GPT Image1.5等融入自回归(AR)组件的混合架构模型对比中,V8在处理极高逻辑要求的抽象指令时仍存在局限。例如,对于特定角色位置颠倒等复杂指令,模型的表现仍有待提升。

为此,官方建议追求极致写实的用户配合–raw模式或风格参考功能使用。这些辅助工具能够帮助用户更好地实现对图像细节的控制,弥补模型在某些逻辑处理上的不足。
值得注意的是,性能的提升伴随着成本转嫁。在运行高清及高连贯性模式时,单次作业耗时与费用均达到标准模式的4倍。此外,首发阶段暂不支持非耗时的“放松模式”,这可能会影响部分用户的使用体验。
在当前AI绘画领域加速迈向自回归与扩散模型融合的背景下,Midjourney V8的发布标志着扩散模型在效率极限上的进一步突破。然而,高昂的算力溢价与复杂逻辑理解的瓶颈,也反映出纯扩散架构在面对日益增长的精确控制需求时所面临的挑战。
