🌿 What?

  • Là dịch vụ query serverless, dùng để phân tích dữ liệu trong S3.

  • Sử dụng ngôn ngữ SQL tiêu chuẩn để query files(built trên Presto).

  • Hỗ trợ các định dạng CSV, JSON, ORC, Avro, và Parquet.

  • Giá: 5$ trên một TB dữ liệu scan.

  • Thường được kết hợp với một dịch vụ khác là Amazon QuickSight để báo cáo hoặc làm dashboard.

  • Use cases: Phân tích/ báo cáo, CloudTrail trails, …

  • Nói chung là muốn phân tích dữ liệu lưu trong S3 bằng serverless SQL thì sử dụng Athena.

🌿 Performance Improvement

  • Sử dụng columnar data khi chỉ muốn scan đúng cột chúng ta cần.(less scan)
    • Tiết kiệm chi phí
  • Compress data cho những truy suất nhỏ hơn
  • Partition datasets trong S3, giúp query dễ dàng hơn trên các cột ảo.
  • Use larger files(> 128MB) để tối thiểu overhead(truyền tải tốt hơn).

🌿 Federated Query

  • Athena cho phép chúng ta chạy SQL queries cho cả những dự liệu được lưu trữ dưới dạng relational, non-relational, object và custom data sources(AWS hoặc on-premises)
  • Sử dụng Data Source Connectors(AWS Lambda) để chạy Federated Queries(queries tới CloudWatch Logs, DynamoDB, RDS, …)
  • Lưu trữ kết quả phân tích được vào lại S3.