
微新创想:近日,亚马逊 SageMaker AI 宣布推出支持 OpenAI 兼容 API 的实时推理端点。这一功能的上线为开发者带来了极大的便利,用户只需更改端点 URL,即可使用 OpenAI SDK、LangChain 或 Strands Agents 等工具调用 SageMaker AI 上的模型。无需进行额外的客户端定制、SigV4 封装或代码重写,即可实现无缝对接。
SageMaker AI 的功能丰富,支持在自有基础设施上构建多步骤 AI 代理的工作流。例如,用户可以使用 Strands Agents 或 LangChain 等框架,结合 SageMaker AI 的强大计算能力,实现更复杂的 AI 应用场景。同时,推理过程可以在用户的 GPU 实例上进行,确保数据安全与性能优化。
为了进一步提升用户体验,SageMaker AI 端点开放了一个新的路径 /openai/v1。该路径能够接受聊天补全请求并直接返回响应,包括流式输出。这意味着用户可以像使用 OpenAI API 一样,轻松调用 SageMaker AI 上的模型,享受一致的接口体验。
所有使用标准 SageMaker AI API 和 SDK 的端点和推理组件均已启用 OpenAI 兼容模式。用户无需修改原有代码结构,只需调整 URL 即可将现有应用程序接入新的功能。这种灵活性大大降低了迁移成本,提高了开发效率。
用户还可以在同一个 SageMaker AI 端点上托管多个模型。例如,可以同时部署用于通用任务的 Llama 模型、针对特定领域的微调 Mistral 模型,以及用于分类的小型模型。所有模型都可以通过相同的 OpenAI SDK 进行访问,实现统一的管理与调用。
要使用这些功能,用户需要满足一定的前提条件。首先,必须拥有 AWS 账户并具备相应的权限。其次,需要安装 SageMaker 和 OpenAI 的 Python SDK。此外,模型需要存储在 Amazon S3 中,以便 SageMaker AI 可以高效地调用。
在认证方面,SageMaker AI OpenAI 兼容端点支持 Bearer Token 认证。这种认证方式更加安全,同时也简化了用户的操作流程。SageMaker Python SDK 中内置了生成 Token 的工具,用户可以轻松完成认证步骤。
实际操作中,用户可以快速部署单模型端点或推理组件端点。这种方式不仅便于管理,还能在单个端点上托管多个模型,提升资源利用率。通过 OpenAI Python SDK,用户可以简单地调用这些模型,获取所需的推理结果。
这项新功能的推出,使得 SageMaker AI 与现有的 AI 应用无缝对接。无论是开发新项目还是优化现有系统,用户都能享受到更高效、更灵活的推理解决方案。同时,这一更新也体现了 Amazon 在推动 AI 技术普及与应用方面的持续努力。
