🌿 What?

  • Là dịch vụ hỗ trợ quản lý các clusters Hadoop(Big Data) để phân tích và triển khai các ứng dụng big data.
  • Clusters có thể được tạo bởi hàng trăm EC2 instances.
  • EMR nó take care hết toàn bộ các tài nguyên cung cấp cũng như thông số thiết lập.
  • Tự động scale và tích hợp với Spot instances.
  • Use case: data processing, ML, web indexing, big data, …

🌿 Node types

  • Master Node: quản lý cluster, điều phối, quản lý sức khỏe - chạy dài hạn.
  • Core Node: Chạy các tasks và lưu trữ dữ liệu - chạy dài hạn.
  • Task Node(optional): chỉ để chạy task - thường là Spot.

🌿 Purchasing

  • On-demand: tin cậy, có thể dự tính, sẽ không bị terminated.
  • Reserved(min là1 năm): tiết kiệm chi phí(EMR sẽ tự động sử dụng option này nếu nó phù hợp)
  • Spot instances: rẻ hơn nhưng có thể bị terminated nếu được giá =)) kém độ uy tín.