【機械学習】S3のデータレイク構成について

データレイクは構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。

AWS Lake Formation を使用してS3を利用したデータレイク構成を容易に実施することができます。

Lake Formationは、データベースとオブジェクトストレージからデータを収集およびカタログ化し、データを新しい Amazon S3データレイクに移動し、機械学習アルゴリズムを使用してデータをクリーンアップおよび分類し、機密データへのアクセスを保護します。

これらのタスクが完了すると、ユーザーは、一元化されたデータカタログにアクセスできるようになります。このデータカタログは、利用可能なデータセットおよびその適切な使用方法を示します。

Redshift Spectrumを利用することで、S3バケットをRedShiftの解析用のデータレイクとして構成することができます。

これはビッグデータ解析などの高負荷な解析を実現する構成です。