- Cloudflare vừa thêm Pipelines làm Logpush destination: logs đi thẳng qua SQL transform, lưu dưới dạng Parquet files hoặc Apache Iceberg trên R2 với zero egress.
- Mảnh ghép cuối của Cloudflare Data Platform đã ráp xong.
TL;DR
Ngày 20/04/2026, Cloudflare chính thức công bố Pipelines làm destination mới của Logpush. Thay vì chỉ đẩy JSON thô ra R2/S3 như trước, bạn có thể route logs qua Pipelines để transform bằng SQL in-flight — lọc field, redact IP, hash, convert timestamp — rồi ghi thẳng xuống R2 dưới dạng Parquet files hoặc Apache Iceberg tables quản lý bởi R2 Data Catalog. Đây là mảnh ghép cuối cùng hoàn thiện Cloudflare Data Platform đã công bố từ tháng 12/2025.
Có gì mới
Trước đây, nếu muốn phân tích Logpush data đàng hoàng, bạn phải tự tay dựng pipeline: Logpush → R2/S3 (JSON) → ETL sang Parquet → load vào warehouse → query. Mỗi bước thêm độ trễ, thêm chi phí egress, thêm một chỗ có thể gãy.
Với Pipelines destination, toàn bộ chuỗi đó sụp lại thành một config duy nhất trong dashboard Cloudflare. Hệ thống tự provision Stream, Sink, R2 credentials, Pipeline và Logpush job chỉ bằng một lần setup. Sau vài phút, logs bắt đầu chảy, được SQL transform trên đường đi, và đáp xuống R2 ở định dạng columnar sẵn sàng query.
Vì sao quan trọng
Ba lý do khiến thay đổi này không chỉ là "một destination mới":
- Storage rẻ hơn thấy rõ. Parquet columnar compress tốt hơn JSON 5-10x tuỳ dataset. Với khối lượng HTTP logs của một site trung bình, khác biệt đủ lớn để thay đổi quyết định kiến trúc.
- Zero egress thật sự zero. Dữ liệu ở trên R2, DuckDB/Spark/Snowflake query trực tiếp không mất phí chuyển dữ liệu. Không còn logic "copy log sang warehouse để query".
- Compliance built-in. Hash IP, drop PII field, redact header ngay trong SQL transform — tuân thủ GDPR mà không cần service riêng.
Chi tiết kỹ thuật
Các dataset được support:
| Scope | Datasets |
|---|---|
| Zone-level | http_requests, firewall_events, dns_logs |
| Account-level | workers_trace_events |
Output format gồm 3 lựa chọn: Parquet, JSON, hoặc R2 Data Catalog (Apache Iceberg). Với Iceberg, bạn được kèm ACID transactions, schema evolution, time travel, và auto-compaction do R2 Data Catalog quản lý nền.
Pipelines SQL hỗ trợ: string functions, regex, hashing (sha256...), JSON extraction, timestamp conversion, conditional expressions. Ví dụ một transform thực tế chỉ giữ error requests và hash IP để audit:
SELECT
sha256(ClientIP) AS client_ip_hash,
EdgeResponseStatus,
to_timestamp(EdgeStartTimestamp) AS ts,
ClientCountry,
ClientRequestPath
FROM http_requests
WHERE EdgeResponseStatus >= 400Advanced delivery settings cho phép tune roll size và roll interval cho file Parquet, quyết định trade-off giữa file count và latency. Cloudflare ghi chú độ trễ "a few minutes for events to start streaming from the Logpush source" — đủ cho near-real-time analytics, không phải streaming millisecond.
So sánh với các lựa chọn khác
| Yếu tố | Logpush → R2 JSON | Logpush → BigQuery | Logpush → Pipelines |
|---|---|---|---|
| Format | JSON raw | BigQuery table | Parquet / Iceberg |
| Transform in-flight | Không | Không | SQL native |
| Egress cost | 0 | Phụ thuộc GCP | 0 |
| Vendor lock-in | Thấp | Cao (BigQuery) | Thấp (open format) |
| Query engines | Tự build | BigQuery | R2 SQL, DuckDB, Spark, Snowflake, Databricks |
Use cases đáng thử trước
- SIEM/Security: filter
firewall_eventstheoaction = 'block', hash IP tuân thủ GDPR, đẩy Iceberg cho Snowflake/Databricks phân tích. - Cost analytics: chỉ giữ HTTP requests có
EdgeResponseStatus >= 400, drop cookie/header không cần — giảm dung lượng 5-10x so với JSON. - Workers debugging:
workers_trace_eventsvào Iceberg, query bằng R2 SQL theoscript_name + timestamptrong vài giây. - DNS analytics:
dns_logstransform thành table có derived column phân loại query type, phát hiện pattern bất thường. - Compliance archive: giữ raw logs ở Parquet zero-egress, chỉ query khi audit, cost gần như bằng storage thuần.
Giới hạn & pricing
Cloudflare Data Platform (Pipelines + R2 Data Catalog + R2 SQL) hiện chưa tính phí trong giai đoạn beta; pricing tương lai sẽ theo mô hình per-GB. Vài hạn chế còn tồn tại:
- Pipelines hiện chỉ hỗ trợ stateless transform. Window aggregation, join cross-stream chưa có.
- R2 SQL mới support filter queries; aggregations và joins đang trong roadmap.
- Workers UDFs cho Pipelines là feature tiếp theo, chưa ship.
- Không nêu giới hạn throughput chính thức cho Logpush → Pipelines.
Bước tiếp theo
Với Logpush integration đã ship, Cloudflare Data Platform hoàn thiện đủ 4 mảnh ghép của roadmap H1 2026: ingest (Pipelines), store (R2 + Iceberg), catalog (R2 Data Catalog), query (R2 SQL). Các mảnh còn lại: stateful Pipelines, aggregations/joins trong R2 SQL, Workers UDFs — dự kiến xuất hiện trong các release tiếp theo.
Nếu bạn đang chạy Logpush ra S3/R2/BigQuery và tốn 4-chữ-số-USD mỗi tháng cho storage + query, đây là cơ hội để thử lại toàn bộ stack với cấu hình gần như bằng zero.
Nguồn: Cloudflare Changelog, Logpush Pipelines docs, Cloudflare Data Platform blog.


