【re:Invent 2024现场直击】S3云端储存两大新功能瞄准AI需求,Iceberg超大型资料表查询能快3倍,还能自动产生Metadata

AWS执行长Matt Garman揭露云端储存服务2项新功能,其一是Amazon S3 Metadata,可自动替S3中的物件产生Metadata,方便找到所需资料、进行后续分析应用。

图片来源: 

摄影/王若朴

AWS执行长Matt Garman在今年度re:Invent 2024技术年会中,宣布几项云端储存服务Amazon S3的重要新功能,包括原生支援资料湖资料格式Iceberg的Amazon S3 Tables,大型资料表查询速度可以提高3倍,以及能自动产生物件Metadata的Amazon S3 Metadata预览版,这两大新功能都是为因应AI需求而设计。

要让云端储存服务贴近AI需求

在今日主题演讲中,Matt Garman点出,运算、储存、资料库和AI推论,是AWS新战略的4大重要基石。

就储存来说,随著新技术推陈出新,「储存模式也改变了。」Matt Garman回顾,AWS最早推出Amazon S3云端储存服务,至今已有18年,拥有上百万名使用者,处理了400兆个物件。Amazon S3服务在这18年间,也发展出几代新服务,比如前几年推出的S3 Intelligent-Tiering,能自动化协助处理PB级甚至是EB级的巨量资料,帮所有使用者省下了40亿美元。

然而,「S3团队一直在思考,如何让S3更好。」储存产品线出身的Matt Garman指出,随著AI越来越融入各行各业的业务,团队后来聚焦,要让S3更符合目前的AI需求。

如何让云端储存服务贴近AI需求?Matt Garman解释,S3专门用来执行资料湖,而AI分析大都仰赖资料湖。其中,绝大多数的分析资料是表格形式,用来查询非常有效率,而这些资料表大多采Apache Parquet资料格式,「这类Parquet资料,也是S3中成长速度最快的资料类型。」

他进一步指出,有些S3客户拥有数百万、数十亿的Parquet档案,要有效率查询这些资料,一种主流做法是使用Apache Iceberg资料表格式,来简化资料湖中巨量资料集的资料处理。但,用Iceberg扩展管理巨量资料,还是很有挑战性,甚至安全性、存取权限等管控也是难题。

2大新功能加速Iceberg资料查询和交易量,还能自动产生Metadata

在今年年会中,AWS正式推出Amazon S3 Tables新功能,能3倍加速Iceberg表格的查询效能,每秒还能提高10倍交易量。而且,该功能还能自动管理表维护工作,就算使用者的资料湖不断扩展,也是如此。再来,S3 Tables还提供表格级存取控制,使用者可自己定义权限。

不过,「要找到所需资料,还是有挑战性。」但要是有后设资料(Metadata)辅助,就能更好地找到所需资料,或是理解资料。

于是,AWS推出另一个储存服务的新功能:Amazon S3 Metadata预览版,能近乎即时,自动产生可供查询的物件Metadata,来帮助使用者更快找寻资料、用于AI分析等。