こんにちは。ソリューション事業部の齋藤です。
re:Invent2024で発表されたS3 Metadataの概要と実際に触ってみた感想をまとめてみます。

S3 Metadataの概要について

re:Inventで「S3 Table」という新しい種類のバケットが発表されました。
Amazon S3 Tablesは、Apache Iceberg形式の表形式データ(例:日々の購入取引、ストリーミングセンサーデータ、広告インプレッションなど)を効率的に保存・管理するためのAWSの新しいストレージソリューションになります。
S3 Tableで作成・変更されたオブジェクトに対して、自動的にメタデータを付与する機能になります。

メタデータを付与することによって、Athena、QuickSightなどのツールを利用して、オブジェクトデータを効率的にクエリすることができます。
メタデータには、バケット名、オブジェクトキー、作成/変更時間、ストレージクラス、暗号化ステータス、サイズ、ユーザーメタデータなど、20を超える要素が含まれます。

実際にS3 Metadataを使用してみた

実際に、S3 Metadataの機能を確認してみたいと思います。
以下の流れで確認していきます。

  1. S3バケットを作成する
  2. S3 テーブルバケットを作成する
  3. S3バケット(汎用)にて、メタデータ機能を有効化する。この際、メタデータの保存場所を選択する。
  4. Lake Formationにて、Athena等でS3 テーブルを使用できるよう設定する
  5. S3バケット(汎用) に、ファイルをアップロードする
  6. メタデータが付与されているか確認する

S3バケットを作成する

マネジメントコンソールからS3バケットを適当な名前で作成します。

S3 テーブルバケットを作成する

S3 テーブルバケットの方も作成していきます。

S3バケットにて、メタデータ機能を有効化する

先ほど作成したS3バケットの「メタデータ – プレビュー」タブ画面にて、「メタデータ設定を作成」を選択します。

メタデータの保存場所(S3 テーブル)先と、メタデータテーブル名を入力し、「メタデータ設定を作成」を選択します。

設定有効後、 以下の画面が表示されます。
画面中央部分の「詳細はこちら」のリンクに、Athenaでメタデータをクエリする方法が記載されてますので、こちらのリンク先をもとにLake Formationを設定します。
※Lake Formationの設定方法を記載すると長くなってしまいますので、割愛させていただきます。

Lake Formation設定後、 S3バケットの「メタデータ – プレビュー」タブ画面にて、「Athena クエリエディタに移動」を選択します。
Lake Formationの統合がうまくいっている場合、カタログのプルダウンに作成したS3 テーブルが表示されるので、こちらを選択します。

S3バケットに、ファイルをアップロードする

現時点では、S3バケットにデータがないため、メタデータもありません。
そのため、S3バケットにデータをアップロードします。
今回は、適当なjsonファイルとCSVのサンプルデータをアップロードしていきます。

メタデータが付与されているか確認する

メタデータが自動で付与されているはずなので、Athenaで確認してみます。

アップロードしたファイルのメタデータが、無事作成されていることを確認できました!

さいごに

今回はS3 Metadataを実際に触ってみました。
まだ、このメタデータの活用方法がイメージできていませんが、試行錯誤して、自分なりの使い方を見つけていきたいと思います!