DeepSeek V4 chạy mượt trên Huawei Ascend 950: Hào CUDA của Nvidia chính thức nứt

TL;DR

Ngày 24/04/2026, DeepSeek phát hành mô hình open-source V4 (Pro 1.6T tham số, Flash 284B), context 1M token, giá đầu vào ¥1/1M token (~$0.14). Cùng ngày, Huawei tuyên bố Ascend 950 supernode hỗ trợ đầy đủ V4, đạt 20ms latency cho V4-Pro và 10ms cho V4-Flash. Đây là lần đầu tiên một mô hình frontier-tier được triển khai rộng rãi mà không phụ thuộc silicon top của Nvidia. Hào CUDA geopolitical đang thu hẹp rõ rệt.

Có gì mới

DeepSeek công bố hai biến thể:

V4-Pro: 1.6 nghìn tỷ tham số tổng (49B activated), pre-train trên 33T token. Hiệu năng tốt nhất trong nhóm open-source về Agentic Coding, world knowledge và reasoning.
V4-Flash: 284B tham số (13B activated), 32T token, bản "economy" nhanh và rẻ hơn nhiều.

Cả hai đều có cửa sổ context 1 triệu token — gấp gần 8× so với V3 (128K). Kiến trúc giữ nguyên DeepSeekMoE + Multi-Token Prediction, thêm hybrid attention mới, manifold-constrained hyper-connections (mHC), Muon optimizer và DSA sparse attention. Kèm bài báo kỹ thuật dày 58 trang.

Phát hành chỉ vài giờ sau khi OpenAI ra GPT-5.5. Huawei livestream ngay trong chiều cùng ngày xác nhận Ascend supernode serve V4 đầy đủ. Cambricon Technologies cũng nhanh chóng công bố tương thích.

Vì sao đây là bước ngoặt

Bốn năm qua, "moat" của Nvidia không chỉ là GPU mà là CUDA + chuỗi cung silicon cao cấp. Các lệnh cấm xuất khẩu của Mỹ khiến Trung Quốc không tiếp cận được H100/H200 ở quy mô lớn. Câu hỏi mở: liệu stack nội địa có thể gánh một mô hình frontier thật sự, hay chỉ dừng ở prototype?

DeepSeek V4 chạy trên Ascend 950 là câu trả lời đầu tiên đủ sức thuyết phục. Phần cứng mới (950PR cho prefill, 950DT sắp ra cho decode + training), phần mềm CANN thay CUDA, vLLM-Ascend + MindIE thay inference stack — tất cả đều hoạt động ở quy mô sản xuất. Alibaba, ByteDance, Tencent đã đặt hàng trăm nghìn chip Huawei đón V4, đẩy giá chip Huawei tăng ~20%.

Số liệu kỹ thuật

Thông số	V4-Pro	V4-Flash
Tổng tham số	1.6T	284B
Activated / inference	49B	13B
Training tokens	33T	32T
Context window	1M	1M
Giá input (¥/1M)	1	0.2
Giá output (¥/1M)	12	2
Inference latency (Ascend 950 supernode)	20ms	10ms

Phần cứng Ascend 950PR (Atlas 350 accelerator): 1 PFLOPS FP8 / 2 PFLOPS FP4, interconnect 2 TB/s, bộ nhớ HiBL 112GB nội địa với băng thông 1.4 TB/s. Sản xuất bởi SMIC trên tiến trình N+3 (~tương đương 5nm). Fine-Grained Expert Partitioning của V4 mang lại tăng tốc 1.50×–1.73× cho inference chuẩn, lên tới 1.96× ở kịch bản latency-sensitive. MegaMoE kernel đã open-source trong DeepGEMM.

So sánh

Chất lượng mô hình: V4-Pro vượt Anthropic Sonnet 4.5 trong đánh giá nội bộ của DeepSeek và đạt chất lượng gần với Opus 4.6 (non-thinking mode), nhưng vẫn thua Opus 4.6 thinking mode. World knowledge bám sát Gemini-Pro-3.1. Math, STEM và competitive coding ngang ngửa các closed-source hàng đầu. Trong nhóm open-source, V4-Pro dẫn đầu rõ rệt ở Agentic Coding.

Phần cứng: Ascend 950PR được đánh giá nằm giữa Nvidia H100 và H200 về khả năng. Performance parity với GPU Nvidia được xác nhận trong technical report — không còn phí hiệu năng khi migrate khỏi CUDA. Nút thắt lớn nhất hiện tại là năng lực sản xuất, không phải thiết kế chip.

Giá API: V4-Pro ở mức ~$0.14/1M input và ~$1.74/1M output — rẻ hơn một phần mười so với OpenAI tương đương. Áp lực giảm giá cho GPT-5.5, Claude, Gemini trong vài tháng tới là có thật.

Ai hưởng lợi

Agentic coding & dev tools: DeepSeek đã dùng V4-Pro làm mô hình coding nội bộ thay thế Sonnet 4.5. Indie devs và startup có thêm lựa chọn open-source đủ mạnh.
Long-context workflows: 1M token mở đường cho RAG toàn bộ codebase, document lớn, hoặc chuỗi hội thoại nhiều vòng phức tạp mà không cần chunking phức tạp.
Customer support & translation quy mô: giá token thấp biến AI từ "cost center" thành "always-on" — hỗ trợ đa ngôn ngữ, caption real-time, tutoring on-demand.
Hệ sinh thái AI Trung Quốc: Cambricon, Huawei CANN, vLLM-Ascend, MindIE — nhận được cú hích validation lớn nhất từ trước tới nay.

Giới hạn & pricing

Throughput V4-Pro còn hạn chế — DeepSeek nói rõ do nguồn cung compute cao cấp đang chật. Kỳ vọng giảm giá mạnh khi supernode Ascend 950 phổ biến nửa sau năm 2026.
Chưa có bản đa phương thức (multimodal) trong V4 — theo phân tích do ràng buộc về compute và tài chính.
CANN chưa bằng CUDA về độ chín: thiếu operator, kernel fusion còn yếu, dễ gặp latency spike trong quá trình migrate.
HBM & packaging là nút cổ chai vật lý thực sự, ảnh hưởng cả thị trường memory tiêu dùng.
V4-Flash vẫn kém Pro ở world knowledge và agent task khó.

Pricing chính thức (¥/1M token):

V4-Pro: 1 input / 12 output (~$0.14 / $1.74)
V4-Flash: 0.2 input / 2 output

Điều gì sắp tới

Roadmap Huawei đã công bố: Ascend 950DT cuối năm 2026 cho decode + training, tiếp theo là 960 và 970 mỗi đời target tăng gấp đôi hiệu năng. Sản lượng Ascend 910C dự kiến ~600K chip trong 2026 (gấp đôi 2025), tổng capacity Ascend lên 1.6 triệu đơn vị.

DeepSeek đang gọi vốn ngoài lần đầu: ít nhất $300M với định giá trên $10B — dùng để mua thêm compute và giữ talent. Nếu trong 1–2 năm tới DeepSeek chạy được cả inference và training ổn định trên Ascend, pipeline phát triển mô hình của họ sẽ thật sự độc lập CUDA.

Điểm mấu chốt: câu chuyện compute từ giờ không còn đơn cực. Các team AI toàn cầu cần bắt đầu nghĩ đến stack đa phần cứng — không phải vì thích, mà vì chi phí và rủi ro chuỗi cung đang tái phân bổ ngay lúc này.

Nguồn: SCMP, Huawei Central, TrendForce, Phemex News, BigGo Finance, Intelligent Living.

DeepSeek V4 chạy mượt trên Huawei Ascend 950: Hào CUDA của Nvidia chính thức nứt

TL;DR

Có gì mới

Vì sao đây là bước ngoặt

Số liệu kỹ thuật

So sánh

Ai hưởng lợi

Giới hạn & pricing

Điều gì sắp tới

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding