为因应AI需求,AWS执行长Matt Garman揭露Amazon S3储存服务新功能,可自动为物件添加Metadata,让使用者更容易在海量资料中找到所需资料,并进行AI分析、GAI应用等。
「生成式AI」是贯穿今年AWS re:Invent大会的关键字,也是AWS产品战略的重要发展方向,就连主力产品线的储存(Storage),也往这个方向创新。
AWS的主力云端储存服务是Amazon S3,诞生于2006年。在这18年间,S3发展出几代新功能,比如前几年推出的S3 Intelligent-Tiering,能分析使用者存取数据的模式,自动将物件搬移到合适的存取层,可处理的资料量级达到PB级,甚至是EB级,帮所有使用者省下了40亿美元。
18年后的今天,Amazon S3拥有上百万名使用者,处理了400兆个物件。但随著新技术推陈出新,「储存模式也改变了,」AWS执行长Matt Garman在大会中说:「S3团队一直在思考,如何让S3更好。」
他们观察,AI应用越来越融入各行各业工作流程,S3团队后来决定,要让S3更符合目前的AI分析需求和生成式AI应用需求。
瞄准AI分析资料管理,强化Iceberg查询效能
如何让云端储存服务贴近这些需求?
首先,用于AI分析的资料,大都以开源的Apache Parquet档案格式来储存。这种格式的资料,查询起来非常方便,「Parquet还是Amazon S3中成长速度最快的资料类型,」Matt Garman补充。
然而,有些S3企业用户拥有数百万、数十亿的Parquet档案,非常大量。要有效查询这些巨量资料,一种常见方法是使用Apache Iceberg资料表格式,来简化资料湖中巨量资料集的资料处理。但,用Iceberg扩展管理PB级甚至EB级的巨量资料,非常有挑战性,甚至安全性、存取权限等管控也是一大难题,通常得有专业团队辅助才行。
为解决企业在资料湖中查询巨量资料的效率挑战,AWS在今年度大会中宣布,正式推出Amazon S3 Tables新功能,不只能3倍加速Iceberg表格的查询效能,每秒还能提高10倍交易处理量。
而且,该功能还能自动管理表维护工作,像是进行资料压缩、快照管理等。就算企业使用者的资料湖规模持续扩大,该功能也能确保高效能的查询和成本可控的储存。
为物件自动添加Metadata,还能成为RAG参考
另一方面,随著越来越多使用者把S3当作资料储存库,存放各种资料,「要找到所需的资料,变得很有挑战性。」Matt Garman说明,要是有后设资料(Metadata)辅助,就能更好地找到所需资料,或是理解资料。
于是,AWS推出另一个储存服务的新功能Amazon S3 Metadata预览版,能近乎即时,自动产生可供查询的物件Metadata,比如物件大小和来源,来帮助使用者更快找寻资料。
甚至,使用者可以客制化Metadata内容,来加注特别资讯,比如交易ID、内容评分等。使用者可以运用这些找到的资料,来进行AI分析、即时推论,或是生成式AI的检索增强生成(RAG)资料来源,提供更好的GAI体验。这就是AWS今年因应GAI需求的储存策略。