🌿 What?
-
Là dịch vụ query serverless, dùng để phân tích dữ liệu trong S3.
-
Sử dụng ngôn ngữ SQL tiêu chuẩn để query files(built trên Presto).
-
Hỗ trợ các định dạng CSV, JSON, ORC, Avro, và Parquet.
-
Giá: 5$ trên một TB dữ liệu scan.
-
Thường được kết hợp với một dịch vụ khác là Amazon QuickSight để báo cáo hoặc làm dashboard.
-
Use cases: Phân tích/ báo cáo, CloudTrail trails, …
-
Nói chung là muốn phân tích dữ liệu lưu trong S3 bằng serverless SQL thì sử dụng Athena.
🌿 Performance Improvement
- Sử dụng columnar data khi chỉ muốn scan đúng cột chúng ta cần.(less scan)
- Tiết kiệm chi phí
- Compress data cho những truy suất nhỏ hơn
- Partition datasets trong S3, giúp query dễ dàng hơn trên các cột ảo.
- Use larger files(> 128MB) để tối thiểu overhead(truyền tải tốt hơn).
🌿 Federated Query
- Athena cho phép chúng ta chạy SQL queries cho cả những dự liệu được lưu trữ dưới dạng relational, non-relational, object và custom data sources(AWS hoặc on-premises)
- Sử dụng Data Source Connectors(AWS Lambda) để chạy Federated Queries(queries tới CloudWatch Logs, DynamoDB, RDS, …)
- Lưu trữ kết quả phân tích được vào lại S3.