【AWS】EMRとは?

 

EMRとは?

Amazon EMR はビッグデータ処理用のデータ処理プラットフォームです。

Apache SparkApache HiveApache HBaseApache FlinkApache HudiPresto などのオープンソースツールを活用して膨大な量のデータを処理できます。

 

Amazon EMR は、Apache Hadoop や Apache Spark などのビッグデータフレームワークとして、大量のデータを処理および分析するマネージド型クラスタープラットフォームです。

EMR を使用することで、分析用のデータやビジネスインテリジェンスワークロードを処理できます。

EMRの特徴

Amazon EMR は、オープンソースのフレームワークである Apache SparkHadoop を使用して、膨大な量のデータを迅速かつコスト効率よく処理して分析するサービスです。

Amazon EMR および Hive を使用すると、DynamoDB に格納されているデータなど、大量のデータを迅速かつ効率的に処理できます。

これはレポート作成ではなく、高速データ処理に利用される実装方式です。

 

Amazon EMR は、業界をリードするビッグデータのクラウドプラットフォームで、Apache SparkApache HiveApache HBaseApache FlinkApache HudiPresto などのオープンソースツールを活用して膨大な量のデータを処理できます。

 

Amazon EMRはマネージド型のHadoopフレームワークを提供します。

しかしながら、Amazon EMRはEC2インスタンスを利用して構成されるため、Amazon EMRを構成するEC2インスタンスのオペレーティングシステムなどに、ユーザーはアクセス可能となります。

 

ノードと呼ばれます。各ノードには、クラスター内での役割があり、ノードタイプと呼ばれます。

Amazon EMR は、各ノードタイプにさまざまなソフトウェアコンポーネントもインストールし、Apache Hadoop などの分散型アプリケーションでの役割を各ノードに付与します。

クラスターをセットアップする際にEC2 インスタンスの購入オプションを選択します。

オンデマンドインスタンス、スポットインスタンス、あるいはその両方を使用することが可能です。

Amazon EMR 内のスポットインスタンスは、オンデマンドの購入と比較して、低コストで Amazon EC2 インスタンス容量を購入できるオプションを提供します。

スポットインスタンスを使用するデメリットは、価格の変動により予想外に終了する可能性があることです。  Amazon EMRのクラスターに対して、スポットインスタンスを利用することで、オンデマンドと比較してコストを抑えることができます。

 

Amazon EMRは、Apache HadoopやApache SparkなどのビッグデータフレームワークをAWS上で実行して大量のデータを処理および分析を簡素化するマネージドクラスタープラットフォームです。

Amazon EMRを使用して、S3やDynamoDBなど間で大量のデータを変換や解析することができます

よって、S3にあるログファイルを処理・分析するのに最適なサービスとして利用できます。

S3 Selectは大量のログファイルを解析するのには向いていないです。

参考サイト