Giải mã thuật toán X: xAI vừa open-source thứ quyết định bài bạn có ai đọc không

TL;DR

Ngày 15/5/2026, xAI phát hành bản cập nhật lớn nhất cho x-algorithm - hệ thống quyết định feed "For You" cho 557 triệu người dùng hàng tháng. Lần đầu tiên bất kỳ ai cũng có thể không chỉ đọc mà còn chạy thực sự recommendation engine này trên máy cá nhân. Repository đạt 18.100 stars chỉ sau vài giờ ra mắt. Nếu bạn đang đăng bài trên X mà không biết những gì trong bài này, bạn đang chơi game mà không biết luật.

Tại sao lần này khác hoàn toàn

Năm 2023, Twitter open-source một phần thuật toán - chủ yếu là code Scala khó đọc, không có model weights, không thể chạy được. Giới phân tích gọi đó là "transparency theater" - trình diễn minh bạch.

Bản tháng 1/2026 (Grok-powered) tiến bộ hơn nhưng vẫn là code dump. Bản tháng 5/2026 đóng khoảng cách đó hoàn toàn với 4 thay đổi lớn:

End-to-end pipeline: phoenix/run_pipeline.py - một entry point duy nhất chạy toàn bộ retrieval + ranking từ đầu đến cuối, không cần configuration thủ công
Mini Phoenix model: ~3 GB qua Git LFS, 256 embedding dimensions, 4 attention heads, 2 transformer layers - chạy được trên consumer GPU không cần tự training
Grox: pipeline phân loại nội dung mới (spam, NSFW, policy enforcement, sentiment) - lần đầu được công khai
Apache 2.0 license - có thể fork và build sản phẩm thương mại trên nền tảng này

187 files thay đổi, hơn 18.000 dòng code mới. Codebase viết 57.4% Rust + 42.6% Python. Đây là recommendation engine quy mô toàn cầu đầu tiên mà bất kỳ ai có terminal đều có thể inspect đầy đủ.

Kiến trúc 4 thành phần

Hệ thống xử lý 500 triệu posts/ngày, tạo ra khoảng 5 tỷ ranking decisions, và deliver feed cho mỗi người dùng trong dưới 200ms. Có 4 thành phần chính:

Home Mixer: lớp orchestration điều phối toàn bộ pipeline. Hydrate user context bao gồm lịch sử tương tác, ngôn ngữ, múi giờ, mutual follow graph
Thunder: in-memory post store - theo dõi real-time posts từ tài khoản bạn follow. Sub-millisecond lookup không cần database query nhờ lưu trữ hoàn toàn trong RAM, partitioned theo user
Phoenix: ML ranking model dựa trên Grok transformer - dự đoán xác suất tương tác cho từng post candidate. Đây là "não" của hệ thống
Grox: content understanding pipeline - mọi post phải qua Grox trước khi vào ranking. Phân loại spam, NSFW, sentiment; nội dung tích cực được boost nhẹ

Feed chia đôi 50/50: nửa từ tài khoản bạn follow (Thunder xử lý), nửa từ tài khoản bạn không follow (Phoenix khám phá qua 145.000 topic clusters). Để post của bạn vào nửa out-of-network của người khác, cần có "social proof" - ít nhất một người họ follow đã tương tác với bài đó.

Công thức tính điểm - thứ thực sự quyết định

Phoenix không dùng một con số duy nhất để rank. Nó dự đoán xác suất cho 19 hành động khác nhau, nhân với trọng số tương ứng, rồi cộng lại:

Final Score = Σ (weight_i × P(action_i))

Phiên bản đơn giản hóa từ source code: Likes × 1 + Retweets × 20 + Replies × 13.5 + Profile Clicks × 12 + Bookmarks × 10

Trọng số đầy đủ (Like = +0.5 là baseline):

Hành động	Trọng số	So với Like
Tác giả reply lại reply	+75.0	150 lần một like
Reply vào bài	+13.5	27 lần một like
Click profile + tương tác	+12.0	24 lần một like
Bookmark	+10.0	20 lần một like
Retweet	+1.0	2 lần một like
Like	+0.5	baseline
Block / Mute	-74.0	-148 lần một like
Report	-369.0	thảm họa phân phối

Insight cốt lõi: một reply mà tác giả reply lại = 150 lần một like. Đây là lý do content tạo ra cuộc hội thoại thực sự outperform mọi thứ khác - kể cả content viral được nhiều like.

Những con số gây sốc từ source code

Ngoài bảng trọng số, source code còn tiết lộ nhiều cơ chế ẩn mà hầu hết creator không biết:

TweepCred: mọi tài khoản có điểm reputation 0-100 tính bằng weighted PageRank. Dưới ngưỡng 65 - chỉ 3 posts được xét cho distribution mỗi chu kỳ. X Premium tự động +4 đến +16 điểm TweepCred
Premium gap: Premium có 4x in-network boost + 2x out-of-network boost, kết quả là ~10x median reach so với free. Free account: dưới 100 impressions/post trung bình. Premium: 600+ impressions
External links: bị phạt 30-50% reach. Từ tháng 3/2026, free account đăng link có median engagement gần bằng 0. Thay vào đó: đặt link trong reply
Hashtag: dùng nhiều hơn 2 hashtag kích hoạt spam classifier trong Grox - phạt thêm 40% reach
Text > Video: text-only outperform video 30% trên X - platform duy nhất trong số các mạng lớn mà điều này đúng. Instagram, TikTok, LinkedIn đều ưu tiên visual; X vẫn text-first
Time decay: post mất nửa visibility score mỗi 6 giờ. Sau 24 giờ, algorithmic push gần bằng 0. Trong 30 phút đầu mà đạt 10 replies - algorithm kích hoạt viral amplification cascade
Author Diversity Scorer: thuật toán tự giảm điểm mỗi khi đã show post của bạn cho cùng một người trong cùng session. Đăng dồn nhiều bài trong thời gian ngắn chủ động làm hại reach/post

Kết - Roadmap tháng tới

xAI cam kết cập nhật repository mỗi 4 tuần và đã giữ đúng lịch từ tháng 1. Bản tiếp theo dự kiến giữa tháng 6/2026. Cần lưu ý: mini Phoenix (3 GB) không phải model đang chạy production - weights thực tế vẫn proprietary. Nhưng khoảng cách đã thu hẹp đáng kể.

Điều quan trọng nhất thuật toán mới dạy chúng ta: không còn hand-engineered features. Grok transformer học relevance hoàn toàn từ engagement history của từng người dùng. Không có shortcut, không có hack nào hiệu quả lâu dài - chỉ có content tạo ra tương tác thực mới được phân phối rộng.

Bài tiếp trong series này sẽ đi vào cách xây một AI agent cá nhân đăng bài đúng giọng bạn, tối ưu cho từng tín hiệu này.

via xai-org/x-algorithm - Pasquale Pillitteri - OpenTweet