Cloudflare bắt Logpush chảy thẳng vào Pipelines: logs transform in-flight, lưu Parquet hoặc Iceberg trên R2

TL;DR

Ngày 20/04/2026, Cloudflare chính thức công bố Pipelines làm destination mới của Logpush. Thay vì chỉ đẩy JSON thô ra R2/S3 như trước, bạn có thể route logs qua Pipelines để transform bằng SQL in-flight — lọc field, redact IP, hash, convert timestamp — rồi ghi thẳng xuống R2 dưới dạng Parquet files hoặc Apache Iceberg tables quản lý bởi R2 Data Catalog. Đây là mảnh ghép cuối cùng hoàn thiện Cloudflare Data Platform đã công bố từ tháng 12/2025.

Có gì mới

Trước đây, nếu muốn phân tích Logpush data đàng hoàng, bạn phải tự tay dựng pipeline: Logpush → R2/S3 (JSON) → ETL sang Parquet → load vào warehouse → query. Mỗi bước thêm độ trễ, thêm chi phí egress, thêm một chỗ có thể gãy.

Với Pipelines destination, toàn bộ chuỗi đó sụp lại thành một config duy nhất trong dashboard Cloudflare. Hệ thống tự provision Stream, Sink, R2 credentials, Pipeline và Logpush job chỉ bằng một lần setup. Sau vài phút, logs bắt đầu chảy, được SQL transform trên đường đi, và đáp xuống R2 ở định dạng columnar sẵn sàng query.

Vì sao quan trọng

Ba lý do khiến thay đổi này không chỉ là "một destination mới":

Storage rẻ hơn thấy rõ. Parquet columnar compress tốt hơn JSON 5-10x tuỳ dataset. Với khối lượng HTTP logs của một site trung bình, khác biệt đủ lớn để thay đổi quyết định kiến trúc.
Zero egress thật sự zero. Dữ liệu ở trên R2, DuckDB/Spark/Snowflake query trực tiếp không mất phí chuyển dữ liệu. Không còn logic "copy log sang warehouse để query".
Compliance built-in. Hash IP, drop PII field, redact header ngay trong SQL transform — tuân thủ GDPR mà không cần service riêng.

Chi tiết kỹ thuật

Các dataset được support:

Scope	Datasets
Zone-level	http_requests, firewall_events, dns_logs
Account-level	workers_trace_events

Output format gồm 3 lựa chọn: Parquet, JSON, hoặc R2 Data Catalog (Apache Iceberg). Với Iceberg, bạn được kèm ACID transactions, schema evolution, time travel, và auto-compaction do R2 Data Catalog quản lý nền.

Pipelines SQL hỗ trợ: string functions, regex, hashing (sha256...), JSON extraction, timestamp conversion, conditional expressions. Ví dụ một transform thực tế chỉ giữ error requests và hash IP để audit:

SELECT
  sha256(ClientIP) AS client_ip_hash,
  EdgeResponseStatus,
  to_timestamp(EdgeStartTimestamp) AS ts,
  ClientCountry,
  ClientRequestPath
FROM http_requests
WHERE EdgeResponseStatus >= 400

Advanced delivery settings cho phép tune roll size và roll interval cho file Parquet, quyết định trade-off giữa file count và latency. Cloudflare ghi chú độ trễ "a few minutes for events to start streaming from the Logpush source" — đủ cho near-real-time analytics, không phải streaming millisecond.

So sánh với các lựa chọn khác

Yếu tố	Logpush → R2 JSON	Logpush → BigQuery	Logpush → Pipelines
Format	JSON raw	BigQuery table	Parquet / Iceberg
Transform in-flight	Không	Không	SQL native
Egress cost	0	Phụ thuộc GCP	0
Vendor lock-in	Thấp	Cao (BigQuery)	Thấp (open format)
Query engines	Tự build	BigQuery	R2 SQL, DuckDB, Spark, Snowflake, Databricks

Use cases đáng thử trước

SIEM/Security: filter firewall_events theo action = 'block', hash IP tuân thủ GDPR, đẩy Iceberg cho Snowflake/Databricks phân tích.
Cost analytics: chỉ giữ HTTP requests có EdgeResponseStatus >= 400, drop cookie/header không cần — giảm dung lượng 5-10x so với JSON.
Workers debugging: workers_trace_events vào Iceberg, query bằng R2 SQL theo script_name + timestamp trong vài giây.
DNS analytics: dns_logs transform thành table có derived column phân loại query type, phát hiện pattern bất thường.
Compliance archive: giữ raw logs ở Parquet zero-egress, chỉ query khi audit, cost gần như bằng storage thuần.

Giới hạn & pricing

Cloudflare Data Platform (Pipelines + R2 Data Catalog + R2 SQL) hiện chưa tính phí trong giai đoạn beta; pricing tương lai sẽ theo mô hình per-GB. Vài hạn chế còn tồn tại:

Pipelines hiện chỉ hỗ trợ stateless transform. Window aggregation, join cross-stream chưa có.
R2 SQL mới support filter queries; aggregations và joins đang trong roadmap.
Workers UDFs cho Pipelines là feature tiếp theo, chưa ship.
Không nêu giới hạn throughput chính thức cho Logpush → Pipelines.

Bước tiếp theo

Với Logpush integration đã ship, Cloudflare Data Platform hoàn thiện đủ 4 mảnh ghép của roadmap H1 2026: ingest (Pipelines), store (R2 + Iceberg), catalog (R2 Data Catalog), query (R2 SQL). Các mảnh còn lại: stateful Pipelines, aggregations/joins trong R2 SQL, Workers UDFs — dự kiến xuất hiện trong các release tiếp theo.

Nếu bạn đang chạy Logpush ra S3/R2/BigQuery và tốn 4-chữ-số-USD mỗi tháng cho storage + query, đây là cơ hội để thử lại toàn bộ stack với cấu hình gần như bằng zero.

Nguồn: Cloudflare Changelog, Logpush Pipelines docs, Cloudflare Data Platform blog.

Cloudflare bắt Logpush chảy thẳng vào Pipelines: logs transform in-flight, lưu Parquet hoặc Iceberg trên R2

TL;DR

Có gì mới

Vì sao quan trọng

Chi tiết kỹ thuật

So sánh với các lựa chọn khác

Use cases đáng thử trước

Giới hạn & pricing

Bước tiếp theo

Tiếp tục lướt

One Cache to Rule Them All: Durable Objects Kill the Thundering Herd

Cloudflare Email Service lên public beta: email trở thành giao diện cho AI agent

Cloudflare Agentic Inbox: Open-Source Email Client Where an AI Agent Drafts Every Reply (And Never Sends Without You)

Cloudflare Local Explorer: Mở hộp đen wrangler dev cho Workflows, D1, KV, R2

Cloudflare xây AI engineering stack nội bộ trên chính platform họ ship: 20M requests, 241B tokens, 3,683 user