
目次
【AWS】Redshiftとは?
Amazon Redshift は、クラウド内のフルマネージド型、ペタバイト規模のデータウェアハウスサービスです
Redshiftは通常の業務システムデータなどのBIシステムやデータウェアハウスとして利用可能なリレーショナルデータベースサービスです。
数百ギガバイトのデータから開始して、ペタバイト以上まで拡張できます。これにより、お客様のビジネスと顧客のために新しい洞察を得る目的でデータを使用できるようになります。
Redshiftの利用方法(ユースケース)
S3をデータレイクとして設定し、RedShiftはリレーショナルデータベース形式のビッグデータ処理にクエリを利用した処理が可能となります。
EMRとの違い
Redshiftは EMRと異なり、あくまでデータ解析のみに特化したリレーショナルデータベースであり、データ処理には実行されないです。
言い換えるとBI分析ではなくビッグデータ処理にはEMRが必要ということになります。
- EMRでビッグデータ処理
- RedShiftでBI分析
【AWS】EMRとは?
参考サイト
特徴
高速でシンプルかつ費用対効果の高いデータウェアハウスサービスです
BIや業務データ分析に利用します
ユーザー行動データの高速な処理には向いていません。向いているのはElastiCache
Redshiftはクラウド内で完全に管理されたペタバイト規模のリレーショナルデータベース型のデータウェアハウスサービスです。
数百ギガバイトのデータから始めて、ペタバイト以上に拡張できます。
業務解析向けのDWHを提供しており、大量のデータを使ってビジネスや顧客のための解析を行うことができます。
Amazon Redshift はテーブルの行をコンピューティングノードに分配するので、データを並列処理できます。
各テーブルに対して適切な分散キーを選択することにより、データの分配を最適化して、ワークロードを分散し、ノード間のデータの移動を最小限にできます。
安価で利用する方法
Redshiftがスナップショット用の無料ストレージを提供してますが、クラスターのストレージ容量を利用することになります。
スナップショットの空き容量の上限に達すると、通常の料金で追加のストレージに課金されてしまいます。
このため、自動スナップショットを保存し、保存期間を設定する必要がある日数を評価し、不要になった手動スナップショットを削除する必要があります。
ログ
Redshiftクラスターに対する拡張VPCルーティングを有効にすることで、VPCに出入りするRedshiftクラスターのすべてのCOPYおよびUNLOADトラフィックを監視することができます。
セキュリティについて
Redshiftクラスター間のすべてのトラフィックがインターネットを通過しないようにするには
Amazon Redshiftの拡張VPC ルーティングを使用すると、Amazon Redshift はクラスターとデータリポジトリ間のすべての COPY と UNLOAD トラフィックが Amazon VPC を通るよう強制します。
拡張 VPC ルーティングを使用することで、VPC セキュリティグループ、ネットワークアクセスコントロールリスト (ACL)、VPC エンドポイント、VPC エンドポイントポリシー、インターネットゲートウェイ、ドメインネームシステム (DNS) サーバーなどのスタンダード VPC 機能を使用することができます。
これらの機能を使用して、Amazon Redshift クラスターと他のリソースの間のデータフローを詳細に管理します。
拡張された VPC ルーティングを使用して VPC からトラフィックをルーティングする場合には、VPC フローログを使って COPY と UNLOAD トラフィックを監視することもできます。
クエリ処理を実施する際に、照会内容をキューに経路指定する方法を定義しなければならないという要件がある場合
WorkLoad Management(WLM)を利用する
RedshiftのWLM(Work Load Management)を利用することで、クエリ処理を実施する際に、照会内容をキューに経路指定することが可能です。
WLMは、Redshiftに投げ込まれるクエリに対して割り当てるRedshiftのリソースを指定する機能です。
事前にWLMとしてキューを用意しておき、キューに対して割り当てるメモリの割合や並列度、タイムアウトの時間を指定することでクエリに対してリソースの配分を決定したり、長時間実行されるクエリを止めてクラスタリソースを無駄遣いしないようにすることができます。
Redshift Spectrumについて