EMRとは?
Amazon EMR はビッグデータ処理用のデータ処理プラットフォームです。
Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi、Presto などのオープンソースツールを活用して膨大な量のデータを処理できます。
Amazon EMR は、Apache Hadoop や Apache Spark などのビッグデータフレームワークとして、大量のデータを処理および分析するマネージド型クラスタープラットフォームです。
EMR を使用することで、分析用のデータやビジネスインテリジェンスワークロードを処理できます。
EMRの特徴
Amazon EMR は、オープンソースのフレームワークである Apache Spark と Hadoop を使用して、膨大な量のデータを迅速かつコスト効率よく処理して分析するサービスです。
Amazon EMR および Hive を使用すると、DynamoDB に格納されているデータなど、大量のデータを迅速かつ効率的に処理できます。
これはレポート作成ではなく、高速データ処理に利用される実装方式です。
Amazon EMR は、業界をリードするビッグデータのクラウドプラットフォームで、Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi、Presto などのオープンソースツールを活用して膨大な量のデータを処理できます。
Amazon EMRはマネージド型のHadoopフレームワークを提供します。
しかしながら、Amazon EMRはEC2インスタンスを利用して構成されるため、Amazon EMRを構成するEC2インスタンスのオペレーティングシステムなどに、ユーザーはアクセス可能となります。
ノードと呼ばれます。各ノードには、クラスター内での役割があり、ノードタイプと呼ばれます。
Amazon EMR は、各ノードタイプにさまざまなソフトウェアコンポーネントもインストールし、Apache Hadoop などの分散型アプリケーションでの役割を各ノードに付与します。
クラスターをセットアップする際にEC2 インスタンスの購入オプションを選択します。
オンデマンドインスタンス、スポットインスタンス、あるいはその両方を使用することが可能です。
Amazon EMR 内のスポットインスタンスは、オンデマンドの購入と比較して、低コストで Amazon EC2 インスタンス容量を購入できるオプションを提供します。
スポットインスタンスを使用するデメリットは、価格の変動により予想外に終了する可能性があることです。 Amazon EMRのクラスターに対して、スポットインスタンスを利用することで、オンデマンドと比較してコストを抑えることができます。
Amazon EMRは、Apache HadoopやApache SparkなどのビッグデータフレームワークをAWS上で実行して大量のデータを処理および分析を簡素化するマネージドクラスタープラットフォームです。
Amazon EMRを使用して、S3やDynamoDBなど間で大量のデータを変換や解析することができます。
よって、S3にあるログファイルを処理・分析するのに最適なサービスとして利用できます。
S3 Selectは大量のログファイルを解析するのには向いていないです。
参考サイト
【AWS】Redshiftとは?