亚马逊网络服务(AWS)近日对其机器学习和人工智能(AI)平台 SageMaker 进行了重大升级,旨在全面提升用户体验并强化其市场竞争力。此次升级不仅引入了新型可观察性功能,还新增了连接编码环境以及GPU集群性能管理等多项创新特性,标志着SageMaker平台自2024年起正式转型为统一的数据源集成中心,整合了多种机器学习工具。
此次更新的核心目标在于帮助用户更精准地识别模型性能下降的根源,同时赋予用户更大的控制权来优化计算资源的分配。AWS SageMaker总经理Ankur Mehrotra在接受《VentureBeat》采访时透露,多项新功能的开发灵感均源自用户反馈。他指出,许多生成AI模型的开发生成客户常常面临的一大难题是:当模型出现问题时,难以定位故障发生的具体层面。为解决这一痛点,SageMaker HyperPod的可观察性功能应运而生,使工程师能够全面检查计算层、网络层等各个层面的运行状况。一旦模型性能出现波动,系统将即时触发警报,并在仪表盘上展示相关指标,帮助用户快速定位问题。
除了可观察性功能,SageMaker还新增了本地集成开发环境(IDE)连接功能,允许工程师将本地编写的AI项目无缝部署到平台上。Mehrotra强调,此前本地编码的模型只能在本地运行,这给希望进行扩展的开发者带来了显著挑战。如今,AWS推出的安全远程执行功能打破了这一限制,用户既可以在本地或管理IDE上开发,又能与SageMaker灵活连接,从容应对不同任务场景。
AWS于2023年12月推出的SageMaker HyperPod,旨在帮助客户高效管理训练模型的服务器集群。该功能能够根据需求模式智能调度GPU使用,有效平衡资源与成本。AWS表示,许多客户希望将类似的服务扩展到推理任务中。由于推理任务通常在白天进行,而训练任务多在非高峰时段,这一新功能将为开发者提供更大的灵活性。
尽管亚马逊在基础模型领域可能不及谷歌和微软那样备受瞩目,但AWS依然致力于为企业构建AI模型、应用或代理提供坚实的基础设施支撑。除了SageMaker,AWS还推出了Bedrock平台,专门针对应用和代理的构建需求。随着SageMaker的持续升级,AWS在企业AI领域的竞争力愈发凸显。
划重点:
🌟 AWS对SageMaker平台进行重大升级,新增可观察性功能和本地IDE连接功能,显著提升模型监控与开发效率。
⚙️ SageMaker HyperPod功能帮助用户优化服务器集群管理,提高资源利用率并降低成本。
🚀 AWS在AI基础设施领域的持续布局,将进一步巩固其在市场中的竞争优势。