
微新创想:谷歌近日在 Gemini 安卓应用17.10.54.sa.arm64测试版中展示了生成式图像编辑功能的重大升级。此次更新通过引入深度集成的标记界面与实时文本描述框,旨在解决当前AI图像二次创作中指令传递不精准、操作链路断裂的问题。这一改进显著增强了Gemini对生成内容如Nano Banana图像的局部调优能力。
此次技术迭代的核心在于交互逻辑的重构。相较于之前仅支持基础涂鸦、且需退出编辑界面后再向机器人下达指令的初级方案,新版界面允许用户在点击“铅笔”图标后,直接在图像特定区域进行高精度标记。同时,底部新增的文本框可以同步输入修改意图。这种“视觉定位+自然语言”的双模态交互方式,显著提升了模型对特定局部修改指令的理解精度。

此外,测试版还预留了调整大小及特效选项空间,预示着Gemini正在从单一的文生图工具向集生成、修剪、滤镜处理于一体的综合性图像工作站演进。这一方向的转变表明,谷歌对图像处理技术的布局更加全面,意图覆盖用户从创作到后期处理的全流程需求。
从行业趋势来看,谷歌此举反映了生成式AI的竞争重心正从“从无到有”的单纯生成,转向“精益求精”的受控编辑。通过将复杂的标记工具融入移动端原生应用,谷歌试图在移动AI摄影与数字创作领域建立更高的交互门槛。这不仅提升了用户体验,也推动了AI图像处理技术向更专业化的方向发展。
尽管上述功能目前仍处于代码分析阶段,尚未正式面向公众开放,但其展现出的“即标即改”逻辑,预示着多模态模型在感知用户精细化审美意图方面迈出了关键一步。这一进步将进一步加速AI绘画从娱乐化向专业化创作流程的渗透,为未来的数字艺术创作带来新的可能性。
